语音深度学习落地中存在的困难和壁垒

小李飞刀李寻欢

757人浏览 · 2019-11-05 11:44:37

小李飞刀李寻欢 · 2019-11-05 11:44:37 发布

各位大佬好！

深度学习在语音方面的应用远比图像要少很多，除了众所周知的语音识别【ASR，Speech and Speaker】与语音合成【TTS】，似乎再也没有什么深度学习方面的应用了，其实这个问题很明显，本大佬从头说起，

从某大佬开源图像数据集开始，语音还在数据的封闭阶段，一般人和单位根本拿不到数据，而当图像如火如荼的时候，火得不能再火的时候，语音方面的砖家才意识到革命必将来临，再不面对将失去发展机遇，于是放松了一部分数据集，但仍旧少得可怜，相比于图像来说更是九牛之一毛。而语音方面的垄断巨头早已是不可替代，地位不可能撼动了，这只能说得数据者得天下。

这时候，谁开源数据谁将获得发展机遇。开源数据后会得到全世界的专家教授关注，即使是简单的论文引用也会使得贵公司成为顶会的亮点，得到资本的关注更是合情合理，纯属意料之中，这是创业公司的救命钱。有钱来了找几个行业大佬还是比较容易的，即使招不到特别厉害的大佬，招个top30的博士还是可能的吧。其他可能更多，不再赘述。

同样开源代码更会引起关注，无疑将处于焦点。

此外，困难之一存在于懂深度学习的没有基本的语音方面的知识，仅仅是设计个网络，想个idea，不了解其中蕴藏的更大的可能，说不定这个小孔将是另一片天空，因此不会有更大的突破。而纯粹搞语音信号处理的又很少有深入了解深度学习的，大多数，绝大多数都是套用现有的网络与模型，这也限制了语音的发展空间。只能寄希望于学术界的革命与更新。

想来想去，语音方面的应用还真不是太多，除了上面几个，现在有意义的如下：可有交叉

1-声源分离；场景：多个说话人声源分离、歌声伴奏分离

2-情感识别；

3-问答系统或者智能对话；

4-音乐方面；场景：和弦识别、评级与测评等。可关注CCOM

5-语言类别、方言与普通话；场景：识别、合成、翻译、评级等

6-其他传统信号处理方面；

本文的另一个关注点是落地，以往的东西都是放在服务器，这一点我非常不赞成，如果可能我还是更欣赏放在移动端。毕竟服务器是收费的，没有免费的吧。放在移动端会节约很多，何乐而不为？

TensorFlow目前开源的移动端应用，速度较快，但仍在开发当中，很多Op不支持，TF版本也有依赖，这种坑很大也很多，跳进去爬都爬不出。希望TF官方好好开发下，完善一下。目前其他框架还没这么流行。

有坑才有坑，无坑则无坑。一个萝卜一个坑，没有坑了怎么还会有坑？坑小则不值钱了。

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192