问答：从智能音箱看待语音交互和人工智能（1）

1.在智能语音领域，为什么是亚马逊脱颖而出？1）没有技术包袱，更注重产品和技术相结合，把握远场语音交互的痛点，其他巨头几乎没有技术优势；2）对产品细节的打磨和对技术的耐心程度超过其他巨头；3）站在用户角度定义产品，而不让技术人员过多干涉产品定义。2.语音交互技术到底成熟没有？目前还不成熟。语音交互包括语音识别、语义理和语音合成三个部分。从语音识别来讲，目前仅仅是近场语音识别率能达到较

老A的AI实验室

3735人浏览 · 2017-06-06 21:54:35

老A的AI实验室 · 2017-06-06 21:54:35 发布

1.在智能语音领域，为什么是亚马逊脱颖而出？

1）没有技术包袱，更注重产品和技术相结合，把握远场语音交互的痛点，其他巨头几乎没有技术优势；
2）对产品细节的打磨和对技术的耐心程度超过其他巨头；
3）站在用户角度定义产品，而不让技术人员过多干涉产品定义。

2.语音交互技术到底成熟没有？

目前还不成熟。
语音交互包括语音识别、语义理和语音合成三个部分。
从语音识别来讲，目前仅仅是近场语音识别率能达到较高的识别率，且对使用环境有比较高的要求；对于真实的使用场景即远场语音，还要考虑说话者与机器之间的距离，让说话者在屋子的任何位置下的语音命令都能被及机器识别，而这又牵扯到对噪声、混响、回声等干扰声音的处理，这是光靠深度学习解决不了的。

在语义理解上，当前技术还难以做到真正意义上的理解，聊天机器人只是通过搜索语料库返回最大概率的回答，与真实的人际交流还有很大差距；通过语音助手来执行各类操作更像是语音控制而非智能理解。

语音合成技术看上去最容易突破，但现实情况是大部分语音助手声音机械，缺乏人情味，微软的Cortana在语音合成这方面体验很好。

3.语音识别的最大瓶颈是什么？

语音识别的最大瓶颈在于声学，近场语音有很高的识别率前提是环境低噪声、无混响、距离声源近；采用麦克风阵列只能解决部分远场化问题，真正做到在现实场景中的语音识别还需要声学领域的重大突破。

4.语音助手的核心在哪？

语音助手核心在于场景和性格，语音识别和场景也密切相关，不同的场景需要不同的模型适配，这才能保证其识别率；语义更是需要场景的辅助，毕竟圈子的语言还是有很大差异性的；另外一个问题就是语音助手本身也要定义一个性格，从心理学的角度讲，人对有情感的东西表现出更大的宽容心，即便是冷冰冰的问答控制，也要让语音助手体现出个性来，这也包括语音合成的语调问题。

5.如何看待技术与产品？

好的产品并不需要100分的技术，只要达到80分过了用户心理预期的门槛就是一款好产品，更好的产品设计应该是充分发挥技术的优势，而巧妙避过技术的缺陷。
核心竞争不是技术，而是产品。技术特别是算法本身不容易形成壁垒，例如深度学习本身也只是一个工具。由于算法很难直接形成有商业价值的专利和标准，所以发展一定阶段就会开源，开源的结果就是训练一段时间，大家都可以训练一个还可以用的模型出来，核心问题只是怎么把这个模型优化得更好，更能落地到实际产业之中。而场景是可以形成壁垒的，在某个垂直领域做到No.1肯定比通用的有优势；另外场景和数据密切相关，而收集数据、处理数据是需要巨大投入的，因此在特定场景下积累到一定规模的数据也是可以形成壁垒的。

6.当前阶段，用户真的需要多轮对话吗？

不需要。现在的语音交互实际上都是语音控制，当前阶段确实真的很难让计算机理解人的语言。在这个前提下，真正的多轮对话实际上很难做到，更多的是基于场景的搜索问题。一个问题问多遍不是多轮对话，而是一个问答反馈问题。真正的多轮对话可能不需要，而问答反馈是必须的。实际上，可以连续唤醒的单轮问答对话才是智能音箱的核心技术所在，简单可以理解为语音助手的唤醒是第一优先级的，必须支持连续的无数次唤醒，做到有问必答，也就是说用户可以随时唤醒并且打断其他对话直接唤醒，而且必须保障唤醒率和虚警率，虚警率太高显然不行，这会让设备总是莫名其妙自动对话。

7.语音助手要不要屏幕？

需要。
人是视觉动物，我们80%的信息还是靠视觉来获取。亚马逊最新发布了一款带屏幕的Echo，弥补了语音助手在视觉体验上的不足，同时发挥了语音交互本身的便利性和视觉交互的直观反馈，而且拓展了语音助手之外的能力，比如看视频、阅读新闻、视频聊天等娱乐功能。语音助手未来形态极可能是智能音箱+屏幕。

第一代Echo设计为不用屏幕有两个目的：一是培养用户语音交互的使用习惯，二是实现商业上的平稳升级，避免和其他品种的商品冲突。如果一开始就定义为带屏幕的音箱，很容易让用户误以为是ipad。

8.怎样看待人工智能？

一是客观理性看待AI，资本不要拔苗助长，媒体不要捧天摔地，创业者也不要自我陶醉，所有企业的成长都要遵循客观的历史规律，AI还只是对未来的期望。

二是AI只是通过技术升级推动行业的进步，宗旨还是造福人类，AI企业更应该合作共赢，一起教育和培养市场，共同推进AI技术生根发芽。

感知和认知

感知和认知是两个层面的问题，也是人工智能的两个层面：感知更多关注的是数据，认知更多关注的是推理。而现在我们还处在感知阶段，这个阶段所强调的智能其实不重要，控制才重要。可以把智能看作噱头，而控制才是根本。特别是正式场景下的感知问题，这才是一切AI的基础。感知牵涉到多学科融合的问题，比如真实场景下的语音识别问题，首先就是真实场景下获取数据的声学问题，这更多是一个物理学科的问题，而数据处理后又要涉及深度学习的问题，这又是一个计算机学科的问题，如何平衡这两类技术并且融合成一种新的技术体系显然也是一个难点。

参考资料：

[1] 远场语音交互体验的思考：Alexa为什么不用屏幕和多轮对话？

[2] 深度 | 亚马逊 Echo 大获成功，远场语音交互技术在其中究竟扮演了什么角色？

[3] 亚马逊发布了一款带屏幕的 Echo 设备，这才是智能音箱的最佳形态

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生