各位大佬好!

深度学习在语音方面的应用远比图像要少很多,除了众所周知的语音识别【ASR,Speech and Speaker】与语音合成【TTS】,似乎再也没有什么深度学习方面的应用了,其实这个问题很明显,本大佬从头说起,

从某大佬开源图像数据集开始,语音还在数据的封闭阶段,一般人和单位根本拿不到数据,而当图像如火如荼的时候,火得不能再火的时候,语音方面的砖家才意识到革命必将来临,再不面对将失去发展机遇,于是放松了一部分数据集,但仍旧少得可怜,相比于图像来说更是九牛之一毛。而语音方面的垄断巨头早已是不可替代,地位不可能撼动了,这只能说得数据者得天下。

这时候,谁开源数据谁将获得发展机遇。开源数据后会得到全世界的专家教授关注,即使是简单的论文引用也会使得贵公司成为顶会的亮点,得到资本的关注更是合情合理,纯属意料之中,这是创业公司的救命钱。有钱来了找几个行业大佬还是比较容易的,即使招不到特别厉害的大佬,招个top30的博士还是可能的吧。其他可能更多,不再赘述。

同样开源代码更会引起关注,无疑将处于焦点。

此外,困难之一存在于懂深度学习的没有基本的语音方面的知识,仅仅是设计个网络,想个idea,不了解其中蕴藏的更大的可能,说不定这个小孔将是另一片天空,因此不会有更大的突破。而纯粹搞语音信号处理的又很少有深入了解深度学习的,大多数,绝大多数都是套用现有的网络与模型,这也限制了语音的发展空间。只能寄希望于学术界的革命与更新。

想来想去,语音方面的应用还真不是太多,除了上面几个,现在有意义的如下:可有交叉

1-声源分离;场景:多个说话人声源分离、歌声伴奏分离

2-情感识别;

3-问答系统或者智能对话;

4-音乐方面;场景:和弦识别、评级与测评等。可关注CCOM

5-语言类别、方言与普通话;场景:识别、合成、翻译、评级等

6-其他传统信号处理方面;

本文的另一个关注点是落地,以往的东西都是放在服务器,这一点我非常不赞成,如果可能我还是更欣赏放在移动端。毕竟服务器是收费的,没有免费的吧。放在移动端会节约很多,何乐而不为?

TensorFlow目前开源的移动端应用,速度较快,但仍在开发当中,很多Op不支持,TF版本也有依赖,这种坑很大也很多,跳进去爬都爬不出。希望TF官方好好开发下,完善一下。目前其他框架还没这么流行。

有坑才有坑,无坑则无坑。一个萝卜一个坑,没有坑了怎么还会有坑?坑小则不值钱了。

 

 

 

 

 

另外有相关问题可以加入QQ群讨论,不设微信群

QQ群:868373192 

语音深度学习群

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐