BeYoung

MacOS M2 Tensorflow GPU环境搭建

Mon, 10 Jun 2024 22:20:31 +0000

本文记录在mac mini m2 pro上搭建tensorflow gpu版本的过程，中间因为一些坑，导致环境搭建过程有点反复，希望对有相同需求的同学有帮助。

1. 安装conda环境

这里创建conda环境的时候需要指定python版本为3.9，这是因为后面需要安装的tensorflow需要python 3.6~3.9

1

conda create -n tf_gpu python=3.9

2. 安装tensorflow

安装tensorflow的时候，需要指定版本为2.14.1，这里是因为后面需要安装的tensorflow-metal，最新版本只支持2.14

1

pip install tensorflow==2.14.1

3. 安装tensorflow-metal

目前tensorflow官方没有支持apple gpu，需要通过tensorflow-metal插件来支持使用apple gpu

1

pip install tensorflow-metal==1.1.0

4. 测试验证

1
2
3
4
5


import tensorflow.keras
import tensorflow as tf
print(f"Tensor Flow Version: {tf.__version__}")
gpu = len(tf.config.list_physical_devices('GPU'))>0
print("GPU is", "available" if gpu else "NOT AVAILABLE")

成功后会得到下面的输出

1
2
3
4


Tensor Flow Version: 2.14.1
Scikit-Learn 1.5.0
SciPy 1.13.1
GPU is available

算子融合

Fri, 17 May 2024 22:58:36 +0000

什么是算子融合

算子融合是一种通过合并计算图中多个算子到一个算子，达到减少计算量和内存访问的优化方法。

Conv + BatchNormalization + ReLu融合

从融合后的最终公式可以看出，可以在初始阶段就通过BN的均值和方差（推理阶段BN的均值和方差是常量）更新Conv层的weights和bias参数，这样融合后的算子相当少了一个BN层的操作，既减少了内存访问，也减少了计算量

如何做算子融合

算子分类

当存在多个输入，同时存在多种输入-输出映射关系时，最终的Mapping type由最复杂的那一个决定。Mapping type复杂度递增顺序：One-to-One，Reorganize，Shuffle，One-to-Many，Many-to-Many 注：Many-to-Many包含Many-to-One的类型

算子可融合性

绿色：可以融合，且有收益黄色：要做profile才能确定是否有收益红色：没有收益，不融合

计算图基于融合性分块

分块过程：

随机挑选一个One-to-One 算子节点做为种子节点
从种子节点往后进行融合，直到没有可以融合的节点，并更新块的Mapping Type
从种子节点往前进行融合，直到没有可以融合的节点，并更新块的Mapping Type
重复执行1、2、3，直到没有可用的种子节点

融合代码生成

基于编译生成融合代码（DNNFusion、TVM）

参考

DNNFusion: accelerating deep neural networks execution with advanced operator fusion

关于我

Sun, 14 May 2023 12:32:00 -0700

正在研究的项目

《人人都用能英语》

看了后发现之前关于“学”英语很多的观念都是错了

有意思博文记录

TinyProject

通过记录完成一个小项目的方式来进行学习…

思考

2022.07.20

今天乐乐出生了，从些人生多一个父亲的身份，很欢喜，也很彷徨。

Android中几种sdkVersion的区别

Sat, 24 Sep 2022 17:03:48 +0000

Android中几种sdkVersion的区别

最近遇到一个由于升级了targetSdkVersion而引起的线上crash，之前一直对于Android里面几个sdkVersion的含义和作用很模糊，正好这次把这几个不同的sdkVersion理清楚。

minSdkVersion

用于指定应用运行所需最低API级别的整数。如果系统的API级别低于属性中指定的值，Android系统将阻止用户安装应用。

compileSdkVersion

compileSdkVersion只是用来告诉Gradle用哪个Android SDK版本编译你的应用，当使用到新添加的API时就需要使用对应Level的Android SDK。这里需要强调的是，compileSdkVersion只会影响编译的时候，例如，当前我们想使用Android 12一个新的API功能，这时我们就需要将compileSdkVersion升级到31

1
2
3
4


android {
    compileSdkVersion 31
    ...
}

但是这里我们指定了compileSdkVersion到新版本只是让APP编译可以通过，因为在旧的Android系统上还没有使用的新的API，因此在实际代码中还需要对运行时的系统API级别进行判断，保证使用的新API只会在Android12以上的系统运行。

targetSdkVersion

要理解targetSdkVersion，需要知道targetSdkVersion在Android中的作用。targetSdkVersion是Android系统提供向后兼容的主要手段（即：新版本SDK手机兼容旧版本SDK工程）。这是什么意思呢？随着 Android 系统的升级，某个系统的 API 或者模块的行为可能会发生改变，但是为了保证老 APK 的行为还是和以前兼容。只要 APK 的 targetSdkVersion 不变，即使这个 APK 安装在新 Android 系统上，其行为还是保持老的系统上的行为，这样就保证了系统对老应用的前向兼容性。总结： android更新api大概有两种，一种是完全重写（这种就不干targetSdk什么事了）；另一种，保留了老版本的处理逻辑，同时又新增了新的逻辑（用if else的方式来判断具体运行哪段逻辑）。而targetSdk就是用来判断这个if-else的。

QMF分析综合滤波器

Thu, 03 Feb 2022 11:35:16 +0000

分析综合滤波器组的作用

由于音频信号在不同的频率范围具有不同的特性，因此在音频处理之前通常都会使用分析综合滤波器组将音频信号分成不同的频率子带，再分别进行处理。比如，音频编码中常用到的子带编码（Subband coding）；webrtc的VAD中，会对不同的频率子带计算特征，再综合这些特征计算语音概率。

分析综合滤波器组是如何实现

在WebRTC中使用最多的是基于IIR实现的二通道QMF分析综合滤波器组，通过二通道QMF滤波器组，可以很方便实现N等分的子带分解，因此这里只介绍二通道QMF滤波器组。

从上图可以看出，分析综合滤波器包含分析部分和综合部分，当中间没有任何处理时，整个系统的输入输出关系如下：

可以看到分析滤波器部分的高通和低通部分的频率响应网线正好是相对pi/2镜像对称的，QMF叫镜像滤波器的由来。图中Xa0代表的就是输入信号的低频部分，而Xa1代表的就是输入信号的高频部分，这样通过分析滤波器后，就可以对信号的低频部分和高频部分进行分别处理了。

因此只要按下面的等式进行滤波器设计，就可以让A(z)=0，即消除混叠，实现完善重构。

为了效率，通常会采用多相形式实现QMF组，如下图所示，信号处理前都会进行抽取操作，这些实际处理的数据量就减少了，从而提升了执行效率

在QMF组的多相形式中对应的低通滤波器和高通滤波器如上式所示。 WebRTC中的实现

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39


void WebRtcSpl_AnalysisQMF(const int16_t* in_data, size_t in_data_length,
                           int16_t* low_band, int16_t* high_band,
                           int32_t* filter_state1, int32_t* filter_state2)
{
    size_t i;
    int16_t k;
    int32_t tmp;
    int32_t half_in1[kMaxBandFrameLength];
    int32_t half_in2[kMaxBandFrameLength];
    int32_t filter1[kMaxBandFrameLength];
    int32_t filter2[kMaxBandFrameLength];
    const size_t band_length = in_data_length / 2;
    RTC_DCHECK_EQ(0, in_data_length % 2);
    RTC_DCHECK_LE(band_length, kMaxBandFrameLength);

    // Split even and odd samples. Also shift them to Q10.
    for (i = 0, k = 0; i < band_length; i++, k += 2)
    {
        half_in2[i] = ((int32_t)in_data[k]) * (1 << 10);
        half_in1[i] = ((int32_t)in_data[k + 1]) * (1 << 10);
    }

    // All pass filter even and odd samples, independently.
    WebRtcSpl_AllPassQMF(half_in1, band_length, filter1,
                         WebRtcSpl_kAllPassFilter1, filter_state1);
    WebRtcSpl_AllPassQMF(half_in2, band_length, filter2,
                         WebRtcSpl_kAllPassFilter2, filter_state2);

    // Take the sum and difference of filtered version of odd and even
    // branches to get upper & lower band.
    for (i = 0; i < band_length; i++)
    {
        tmp = (filter1[i] + filter2[i] + 1024) >> 11;
        low_band[i] = WebRtcSpl_SatW32ToW16(tmp);

        tmp = (filter1[i] - filter2[i] + 1024) >> 11;
        high_band[i] = WebRtcSpl_SatW32ToW16(tmp);
    }
}

上面是WebRTC中关于分析滤波器部分的实现，从代码中可以看出WebRTC中的分析综合滤波器是基于全通滤波器的QMF多相实现，其中的全通滤器采用了IIR实现，即其中的P0(z)和P1(z)都是全通滤波器。通过参考[2]我们可以梳理这个问题的处理流程，通过分析QMF分析综合滤波器满足完美重构的条件，可以得到H0、H1、G0、G1之间的关系，同时H0和H1是基于pi/2，因此只需要知道H0，最终转化成H0低通滤波器的设计问题。进一步的由于采用了基于IIR的全通滤波器，因此只需要考虑相位失真问题，最终QMF分析综合滤波器问题转换成了滤波器的相位均衡问题。虽然我们知道了设计QMF分析综合滤波器的原理和思路，但是想设计一个完全可用的滤波器还是很有难度的，下面我们直接看下WebRTC中QMF分析综合滤波器的效果，如下图所示，可以看到对应的低通滤波器和高通滤波器都有很窄的过渡带，整个系统的幅值响应几乎接近0dB的，同时除了pi/2附近的频带都是近似线性相位的。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54


import scipy.signal as signal
import numpy as np
import matplotlib.pyplot as plt
import control

def analysis_synthesis_filter():
    filter1_coef = [6418.0 / 65536.0, 36982.0 / 65536.0, 57261.0 / 65536.0]
    filter2_coef = [21333.0 / 65536.0, 49062.0 / 65536.0, 63010.0 / 65536.0]
    ha0_0_b = [1, 0, filter1_coef[0]]
    ha0_0_a = [filter1_coef[0], 0, 1]
    ha0_1_b = [1, 0, filter1_coef[1]]
    ha0_1_a = [filter1_coef[1], 0, 1]
    ha0_2_b = [1, 0, filter1_coef[2]]
    ha0_2_a = [filter1_coef[2], 0, 1]

    ha1_0_b = [1, 0, filter2_coef[0]]
    ha1_0_a = [filter2_coef[0], 0, 1]
    ha1_1_b = [1, 0, filter2_coef[1]]
    ha1_1_a = [filter2_coef[1], 0, 1]
    ha1_2_b = [1, 0, filter2_coef[2]]
    ha1_2_a = [filter2_coef[2], 0, 1]

    ha0_b = np.convolve(ha0_2_b, np.convolve(ha0_1_b, ha0_0_b))
    ha0_a = np.convolve(ha0_2_a, np.convolve(ha0_1_a, ha0_0_a))
    ha1_b = np.convolve([1, 0], np.convolve(ha1_2_b, np.convolve(ha1_1_b, ha1_0_b)))
    ha1_a = np.convolve(ha1_2_a, np.convolve(ha1_1_a, ha1_0_a))

    ha0_sys = control.TransferFunction(ha0_b, ha0_a)
    ha1_sys = control.TransferFunction(ha1_b, ha1_a)
    b0_sys = ha1_sys
    b1_sys = ha0_sys
    delay_sys = control.TransferFunction([1, 0], [1])

    lowpass_sys = 0.5 * (ha0_sys + ha1_sys)
    highpass_sys = 0.5 * (ha0_sys - ha1_sys)
    t_sys = delay_sys / 2 * (ha0_sys * b0_sys + ha1_sys * b1_sys)
    # print(t_sys)
    lowpass_num = lowpass_sys.num[0][0]
    lowpass_den = lowpass_sys.den[0][0]
    highpass_num = highpass_sys.num[0][0]
    highpass_den = highpass_sys.den[0][0]
    t_num = t_sys.num[0][0]
    t_den = t_sys.den[0][0]
    lowpass_w, lowpass_h = signal.freqz(lowpass_num, lowpass_den)
    highpass_w, highpass_h = signal.freqz(highpass_num, highpass_den)
    t_w, t_h = signal.freqz(t_num, t_den)
    fig, axes = plt.subplots(3, 2)
    axes[0, 0].plot(lowpass_w/np.pi, 20*np.log10(np.abs(lowpass_h)))
    axes[0, 1].plot(lowpass_w/np.pi, np.unwrap(np.angle(lowpass_h, deg=True)))
    axes[1, 0].plot(highpass_w/np.pi, 20*np.log10(np.abs(highpass_h)))
    axes[1, 1].plot(highpass_w/np.pi, np.unwrap(np.angle(highpass_h, deg=True)))
    axes[2, 0].plot(t_w/np.pi, 20*np.log10(np.abs(t_h)))
    axes[2, 1].plot(t_w/np.pi, np.unwrap(np.angle(t_h, deg=True)))
    plt.show()

参考

Book:《数字信号处理：理论、算法与应用》
Paper: 具有良好重建特性的正交镜像IIR滤波器组的设计新方法
Paper: IIR QMF-bank design for speech and audio subband coding
Blog: WebRTC VAD 中所用滤波器之分析_book_bbyuan的博客-CSDN博客

WebRTC中的音频处理概览

Sat, 22 Jan 2022 10:53:15 +0000

WebRTC由音频引擎、视频引擎和传输模块，音频处理在WebRTC占了很大一块，本文主要对WebRTC中涉及的音频处理进行简单介绍，不会对具体的实现进行介绍。上图是WebRTC中音频处理的流水线（上面的图是网上的图，如有侵权，通知即删），可以看出主要包含了音频采集播放、音频处理、音频编解码和音频传输。下面对这些模块逐一进行介绍。

音频采集播放

自然界的声音，包括人说出来的声音，都是模拟信号，这些模拟信号是不能被计算机存储和识别的，也不能通过网络进行传输。音频采集就是声音从模拟信号转换成数字信号的过程，而音频播放就是声音从数字信号转换成模拟信号的过程。对于音频数字信号来说有以下几个最主要的参数：

采样率采样率是指录音设备在一秒钟内对声音信号的采样次数，单位是Hz，采样频率越高，声音的还原度越真实越自然。但是人耳可以听到的频度范围是20Hz~20000Hz，然后根据采样定理，也就是说最低只需要40kHz采样率就可以满足人耳的需求了，因此CD音质和音乐音频都是44.1kHz。但是采样率越高意味着数据量越大，因此在一些特殊的场景会使用更低的采样率，如语音通话场景，因为人声都是低于4kHz，因此在语音通话场景更多会使用8kHz或者16kHz的采样率。

采样位宽声音模拟信号经过采样后得一个个样点的值，这个值需要存储到计算机中，那么使用多少位数来表示这个就是采样位宽，通常使用最多的是16bit，正好就是一个short类型。
声道数在使用录音设备进行声音采集时，只能表示到采集点处的声音信号，但是实际声音是有空间信息，为了表达声音的空间信息，就有了声道的概念。这里最有名的可能就是杜比全景声了，大家在电影院看电影的时候，感受到的被声音包围的真实感就是多声道的功劳了，当然这里并不是加多几个通道这么简单啦。

音频编解码

虽然音频的数据量没有视频的量那么大，但是如果直接传输原始的音频数据（原始的音频数据有个名字叫Pulse Code Modulation (PCM)），数据量也是挺大的。现在我们来计算下1秒采样率为48kHz双通道的音频信号的数据量有多大，1秒 * 48000个采样点 * 2个声道 * 每个样点2Bytes，这样1秒的数据量是192kB字节。这样的数据量在互联网发展的早期也是不可以接受的，这时候就需要音频编解码。简单的说，音频编解码就是利用人耳的心理声学特性将也一些不影响听觉的信号丢弃，从而减少信号量的方法，在WebRTC中用得最多的是Opus格式。对于音频编码器来说一个很重要的参数是码率，单位是kbps，即每秒的音频使用多少bits位来表示。音频编解码是音频领域一个很专业的领域，这里就不展开了。

音频处理

在实时通话场景，需要面对各种复杂的环境，处理各种音频问题，最常见的如噪声、回声、声音过大过小等，WebRTC中有一个专门的音频处理模块来处理这些问题，下面就简单介绍下这些模块。

回声消除（Acoustic Echo Cancellation）实际通话场景是一个全双工通信系统非容易产生回声，如下图所示，远端说话声==》近端扬声器播放==》近端麦克风录制==》通过网络传输到远端的扬声器播放，经过这样一个音频环路后，远端又在扬声器里听到自己的声音，也就是回声，如果回声的延时很低时还会产生啸叫，这样是很影响通话体验的。这时就需要回声消除AEC模块了，通常录音数据都会先经过个模块，在传输前先把远端播放的数据消除，这样远端在播放的时候就不会听到回声了。回声消除AEC详细的原理介绍留到后面再介绍，这里先挖个坑。

噪声抑制（Noise Suppression）噪声抑制NS这个很好理解，实际的通话场景都会存在各种各样的噪声，为了保证通话体验不受影响，这时就需要噪声抑制NS模块了。这里也再挖一坑，后面再根据WebRTC源码进行噪声抑制原理介绍。
自动增益控制（Auto Gain Control）在实际通话过程中，由于使用设备的差异和通话时离麦克风的远近，导致了通话的音量差异，为了达到统一的体验就需要进行自动增益控制，简单说就是当音量小时调大增益，当音量大时调小增益，达到减少音量起伏的作用。
混音（Mix）在多人通话场景下，我们需要接收和播放的通常不止一条音频流，但通常只有一个播放设备，因此通常需要对多条音频流先进行混音操作，再进行播放。

音频传输

目前WebRTC音频传输是UDP/RTP/RTCP协议基础上进行传输的，底层UDP协议的不可靠性，导致丢包不可避免，同时音频数据与其它的数据内容有其特殊性，通常一点音频异常都很容易被人感知出来。因此WebRTC针对音频传输做了很多额外的工作，除了最常见的丢包重传，丢包补偿等，还有一个NetEQ模块，会在播放端进行音频播放的加减速来进一步减少由于网络抖动引起的音频异常。

到这里WebRTC中跟音频相关的技术模块都简单的过了一遍，这样大家对于WebRTC音频处理有个大概的印象，这里的每个模块值得深入去学习，后面也把自己学习的一些心得记录在这里，大家一起学习呀。

WebRTC系列-WebRTC_Android源码编译

Mon, 07 Sep 2020 23:19:37 +0000

WebRTC Android源码编译

对于WebRTC的学习来说，首先需要搞定的是源码的编译，由于国内的特殊环境和WebRTC本身的复杂性，导致WebRTC源码编译成了WebRTC学习的第一道门槛。这里把自己在编译WebRTC源码过程中遇到的一些坑进行总结分享，希望对大家有帮助。主要参考官网和WebRTC的编译配置脚本，整个操作过程需要具备科学上学的环境，第一次下载好环境和源码后，后面就不需要了。这里以Android端为例，编译环境为Ubuntu 18.04（再高版本会提示不支持），WebRTC官网有提到Android端暂时只支持在Linux下编译。虽然网上也有资源介绍在Mac环境下编译的，但是用虚拟机装个Ubuntu还是挺方便的，咱就不折腾了。

安装depots_tools工具包

1

git clone https://chromium.googlesource.com/chromium/tools/depot_tools.git

将depot_tools目录添加到环境变量PATH中

1
2
3


vim ~/.profile
export PATH="$PATH:/path/to/depot_tools"
source ~/.profile

下载WebRTC源码

1

fetch --nohooks webrtc_android

由于WebRTC源码比较大，中间网络问题可能会出错，出错的时候用gclient sync继续就可以了

下载编译所需依赖包和工具

1
2


./build/install-build-deps.sh --no-chromeos-fonts
. /build/install-build-deps-android.sh

下载指定分支

1
2


$ git checkout -b my_branch refs/remotes/branch-heads/83
$ gclient sync

源码编译

第一条命令是生成编译工程的，可以添加一些参数来控制编译生成，这里可以研究下源码里的webrtc.gni文件，里面有可以指定的参数，这里主要介绍三个：

target_os：因为是在Android平台上运行的，因此这里指定为"android" target_cpu: 这里指定运行的硬件平台，arm平台则是"arm"，如果是arm64平台则是"arm64" is_debug：表示生成是否是debug包

第二条命令是启动ninja开始编译，编译成功后，会在out_arm/debug目录生成对应的jar包和so库文件

1
2


gn gen out_arm/debug --args='is_debug=true target_os="android" target_cpu="arm" rtc_include_tests=false rtc_build_tools=false rtc_build_examples=false'
ninja -C out_arm/debug

编译问题解决

问题一：gn.py运行失败

gn.py: Could not find checkout in any parent of the current path. This must be run inside a checkout.

这个问题通常发生在，移动了WebRTC源码目录的时候。这里需要看下是否已经把下载的WebRTC源码都完整拷贝了，进到下载WebRTC源码的目录可以看到这个目录还有几个隐藏目录和文件，这几个文件也是需要一起拷贝过去的，后面用gn命令生成编译工程的时候会去检查这几个文件。

.cipd .gclient .gclient_entries

问题二：

chromium style问题 clang.gni中关闭chromium style检查，这里只是暂时关闭，为了代码风格的统一介绍还是按照chromium style还添加自己的代码

1
2
3
4
5
6
7


declare_args() {
  # Indicates if the build should use the Chrome-specific plugins for enforcing
  # coding guidelines, etc. Only used when compiling with Clang.

  clang_use_chrome_plugins = false # is_clang && !is_nacl && !use_xcode_clang
  clang_base_path = default_clang_base_path
}

参考：

WebRTC官网

github.io博客无法访问问题

Sat, 25 Apr 2020 09:34:29 +0000

问题描述

原来的github.io自定义域名博客不能访问，提示如下信息

1
2


Fastly error: unknown domain: beyoung.xyz. Please check that this domain has been added to a service.
Details: cache-lax8629-LAX

问题原因

Github Pages修改了公布的IP，可以到这个网址查到Github Pages目前公布的最新IP

https://help.github.com/en/github/working-with-github-pages/managing-a-custom-domain-for-your-github-pages-site

解决方案

只需在将原来在阿里云上配置的CNAME，修改到最新的Github Pages上

在Ping中检验是否已经修改到最新的IP上，如果已经生效，则原来的博客就可以访问了

代码优化方法论

Sun, 04 Aug 2019 10:44:29 +0000

为什么需要代码优化

提升体验，扩展玩法

减少限制跟要求，降低门槛，覆盖更多群体

在谷歌内部，打造AI应用有两条思路，一是让更多人受惠，二是尽可能减少限制和要求

场景限制必须进行优化

个人隐私越来越被重视，以往的云端处理方案存在局限性一些场景要求算法要有极低的延时，如实时通信项目

Flag终极目标：让算法随手可得

传统代码优化

rnnoise优化举例

函数近似和查表优化sigmoid函数计算

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32


static OPUS_INLINE float tansig_approx(float x)
{
    int i;
    float y, dy;
    float sign=1;
    /* Tests are reversed to catch NaNs */
    if (!(x<8))
        return 1;
    if (!(x>-8))
        return -1;
#ifndef FIXED_POINT
    /* Another check in case of -ffast-math */
    if (celt_isnan(x))
       return 0;
#endif
    if (x<0)
    {
       x=-x;
       sign=-1;
    }
    i = (int)floor(.5f+25*x);
    x -= .04f*i;
    y = tansig_table[i];
    dy = 1-y*y;
    y = y + x*dy*(1 - y*x);
    return sign*y;
}

static OPUS_INLINE float sigmoid_approx(float x)
{
   return .5 + .5*tansig_approx(.5*x);
}

最粗暴的函数近似方法：

``` atan(pi*x/2)*2/pi 24.1 ns atan(x) 23.0 ns 1/(1+exp(-x)) 20.4 ns 1/sqrt(1+x^2) 13.4 ns erf(sqrt(pi)*x/2) 6.7 ns tanh(x) 5.5 ns x/(1+|x|) 5.5 ns ```

减少程序跳转优化RNN计算

CPU多级Cache机制

深度学习移动端优化

网络剪枝

网络的参数都存在冗余的，所以可以进行网络剪枝

网络剪枝的流程 权值的重要性：计算L1或者L2
神经元的重要性：不为零的次数
剪权值VS剪神经元

剪权值剪神经元

剪权值：模型不规则，不便于实现和加速
剪神经元：模型规则，便于实现和加速

精简模型设计

标准CNN

深度分离卷积Depthwise Separable Convolution 【参见MobileNet】

参数比较

四、深度学习移动端部署工具

与PC端深度学习环境被大厂垄断不同，移动端的部署工具可以说是百家争鸣，很多深度学习的厂商都会推出自家的推理加速工具。

4.1 硬件厂商

公司	硬件架构	开发工具
海思	NPU	HiAI Foundation
高通	CPU/GPU/DSP	Snapdragon Neural Processing Engine SDK
Apple	CPU/GPU/NeualEngine	CoreML
ARM	CPU/GPU	ARM NN SDK
MediaTek	CPU/GPU/APU	NeuroPilot SDK

4.2 软件厂商

工具	公司	系统支持情况	特点
TensorFlow Lite	Google	Android/IOS	Android结合比较密，支持GPU加速
CoreML	Apple	IOS	软件硬件结合紧密，更新快
Caffe2	Facebook	Android/IOS
NCNN	Tencent	Android/IOS	支持大部分CNN网络，已经落地的应用多
MACE	小米	Android
MNN	阿里	Android/IOS

利用Caffe2进行手写数字识别在Android端的部署

五、参考

[Paper] A Survey of Model Compression and Acceleration
for Deep Neural Networks
[Book] 解析卷积神经网络–深度学习实践手册
[Video] Toward Efficient Deep Neural Network Deployment: Deep Compression and EIE
[Video] 李宏毅-Network Compression
[Github] 模型压缩及移动端部署

算法工程师到底是做什么的

Sun, 07 Apr 2019 20:20:38 +0000

还记得刚毕业那会找工作，那是一定要找法工程师这个岗位，当时就只是觉得这个岗位牛逼是公司的核心岗位，但是可能对于算法工程师与一般的软件工程有什么区别其实心理也说不清楚。作为一个到今年6月份就工作满5年了的老菜鸟，这期间工作的title也是算法工程师（虽然有些并不是真的在做算法），反正在以算法工程师的title在企业工作的感受与毕业那会想像中上的算法工程师的工作完全不一样。

我觉得所谓的算法工程师应该叫算法应用工程师会更合适一些。因为算法工程师的工作流程大概是这样的（以我自身的经历为例，可能不同公司有不同的工作方式），接到一个功能需求，然后开始调研实现这个功能需要的算法，研究过程中挑选两三种可能的方案，对这些挑选的方案进行实现（也可能是github clone），分析对比这几种方案。最后从中选出一种方案，作为最后的方案。接下来就是对最终的算法方案针对自己的功能需求和业务场景进行做优化，这期间你会对这个算法方案进行原理研究，参数调整，性能优化等等，最终的目标就是尽可能满足业务需求方的要求。

知乎上@Jackpop的回答应该是符合大多数算法工程师的实际工作状态，而我们毕业那会想象中的算法工程师，天天手推工式那种，应该叫科学家或者研究员更合适些。总结一下，我觉得一个优秀的算法工程师应该是能够针对不同的业务场景选择最优的算法方案，并能对现有的算法针对业务场景做一些微调和优化，以更进一步适合业务场景。因为对于企业来说不能落地的算法，是丝毫没有价值的。

以下转载自知乎：https://www.zhihu.com/question/310484101/answer/644079765

算法工程师大致做什么的？

算法，对于大多数理工科学生并不陌生。无论是学计算机还是学数学，或者其他理工科，我们都会接触很多成熟、经过十几年甚至几十年考验的算法。算法工程师的关键点在“工程师”这三个字，日常所做的工作无非是选择一种或几种成熟、优秀的算法进行组合、验证，来解决特定场景下的问题。在大多数企业里面这一点体现更为明显，**在企业里作为算法工程师是不会创造算法，只是使用经过多年考验的成熟、稳定算法。**其实现在不仅是企业界，就连学术界，创新可用的新算法也是寥寥可数，就拿人工智能常用的优化算法来说：

随机梯度
共轭梯度
牛顿法粒子群
遗传
贝叶斯
进化策略

这些算法每一个都是经过多年考验的，有的甚至几十年。再拿计算机视觉来说：

R-CNN系列
yolo系列
mobilenet
….

目前大多数机器视觉算法工程师所做的工作基本也是围绕这些成熟的算法做微调，结合特定场景做迁移。**所以，作为算法工程师是不会创造新算法，作为算法工程师日常工作内容无非是根据具体的业务场景，根据自己的知识积累拿出几种成熟、好用的算法提出一个可用的解决方案，去解决业务上的问题。**所以很多答主所说的需要这样那样的知识，我觉得有点夸张了。

有些答主说需要深入的数学知识，把算法说的神乎其神，作为本硕均为数学系的学生来说，对于日常算法，本科阶段的通识数学知识足够使用了，数学很有价值，但是过于脱离实际，实现难度也比较大，吴恩达在他的教学视频曾提到过共轭梯度法，吴恩达说“共轭梯度法效果不错，但是实现过程复杂，所以人工智能中很少被使用。”共轭梯度法在数学里面已经算是比较基础得了。

算法工程师需要哪些能力？

业务学习能力

算法工程师是不可能脱离业务背景的，人工智能算法工程师、交通算法工程师、图像处理算法工程师等等。在针对一个业务场景设计一个合理的算法，业务知识是非常重要的，**需要结合业务的实际情况、限定条件、各种专业词汇和知识都要有一定的了解，如果脱离场景而一味地琢磨算法，效果不会太好，**比如，做交通算法，需要对交通组织、交通管理、通行损失、周期延误等有所认知。比如，做图像处理，需要对各种图像去噪、图像增广、图像分割、物理成像有所了解，知道像素底层是怎么回事。

持续学习能力

就像我前面所说的**，算法工程师的主要工作就是拿着现有成熟的算法，结合面临业务场景去做一个合理的方案，如果我们知识面太窄，那显然当用到的时候会有点拮据，眼界也被限制住，不知道还有没有更好效果的算法、目前算法有哪些不足之处、在这个业务中能不能发挥作用，只有持续学习，了解足够多的知识，当我们面临问题的时候能够快速对比、选择，找出最合适的一种算法。**

灵活的思维

当我们选择一种算法去解决一个问题时，效果肯定无法达到我们预期的那样，比如我们拿mask rcnn做医学图像语义分割，我们看着它在自然图像方面表现效果很好，就拿来用于医学图像，但是医学图像有它的难点和特殊性，当跑出效果时会发现结果不如人意，这时候就需要灵活的思维去发现问题，去调优、改进，或者从数据入手或者从网络模型入手或者从超参数入手。

编程能力

不同公司对于算法工程师的定位有所差别，比如有些朋友在某公司算法工程师只负责方案的设计，开发由专门的开发人员实施。有的公司算法工程师要完成算法设计到开发全部工作。我认为无论是哪一种形式，编程能力都是必要的，就算是前者这样的形式，有专门的开发人员，那在算法的设计过程中需要验证、对比，对每一个小模块算法进行指标评价，你不可能事事都找别人来帮你做，这样效率低，而且开展工作困难。

算法验证能力

就像前面提到的那样，**算法验证在算法工程师日常工作中占据很大的比重，**我们拿到一些成熟、优秀的算法后，它的效果如何？能否起作用是未知的，我们需要对它进行验证，包括效率、精度等方面。这就要求算法工程师拥有算法验证能力，能够在众多算法中挑选出一种合适的算法来解决相应问题。

BeYoung

MacOS M2 Tensorflow GPU环境搭建

1. 安装conda环境

2. 安装tensorflow

3. 安装tensorflow-metal

4. 测试验证

算子融合

什么是算子融合

如何做算子融合

算子分类

算子可融合性

计算图基于融合性分块

融合代码生成

关于我

正在研究的项目

有意思博文记录

思考

Android中几种sdkVersion的区别

Android中几种sdkVersion的区别

QMF分析综合滤波器

分析综合滤波器组的作用

分析综合滤波器组是如何实现

最近的一些心得

参考

WebRTC中的音频处理概览

音频采集播放

音频编解码

音频处理

音频传输

WebRTC系列-WebRTC_Android源码编译

WebRTC Android源码编译

安装depots_tools工具包

下载WebRTC源码

下载编译所需依赖包和工具

下载指定分支

源码编译

编译问题解决

github.io博客无法访问问题

问题描述

问题原因

解决方案

代码优化方法论

为什么需要代码优化

传统代码优化

深度学习移动端优化

网络剪枝

精简模型设计

四、深度学习移动端部署工具

4.1 硬件厂商

4.2 软件厂商

五、参考

算法工程师到底是做什么的

算法工程师大致做什么的？

算法工程师需要哪些能力？