返回 登录
1

思必驰发布DUI平台,重磅嘉宾圆桌论道语音交互的现状及未来

前不久,在思必驰发布DUI平台的发布会上,由CSDN创始人蒋涛主持的一场圆桌论坛,各路语音语义届的高手云集,现场雄辩,不仅将自己的观点毫无保留倾囊相授,还在现场碰撞出激烈火花。

先来看看嘉宾阵容:

思必驰VP兼北京研发院院长,原阿里IDST语音团队负责人 初敏
助理来也CEO 汪冠春
海知智能CEO 谢殿侠
声智科技CEO 陈孝良

为了将整个圆桌全程还原,AI科技大本营进行了不变动原意的梳理,希望对读者有所启发。

主持人:先请各位做一下简短的自我介绍。

初敏:我是初敏,思必驰这个大家庭新的一员,也是刚刚加入思必驰不久。但是我在这个行业还算是一个老的从业者,一直在语音,这两年也在做人机交互。我觉得加入思必驰最大的原因就是因为我们有着共同的梦想,认为智能的交互模式在未来会变得越来越重要。

谢殿侠:我们是专注于语义理解的一家技术公司,通过自然语言理解和知识图谱的技术来做的。跟思必驰接触以来,也觉得是一个非常务实、接地气的公司。

主持人:是哪一年创立的?

谢殿侠:2014年。今年做这个DUI,价值观也是跟我们不谋而合的。

陈孝良:我是陈孝良,来自声智。我们声智科技主要是做麦克风阵列为主的语音交互的前端,也做一些远场的语音识别。

汪冠春:我是汪冠春。我是智能交互界的一个连续创业者,11年的时候,我们开始做个性化推荐技术,做过一个今晚看啥的产品,后来被百度收购的,后来又做智能交互、人机对话。15年离开百度,做了特定语义的助理公司。我们今天打造了一款最靠谱的智能秘书产品--小来。同时,也在其它几个垂直领域当中为我们的客户打造一些产品。

主持人:我想问一下初敏,你在这个行当的时间也很久了,在微软研究院的时候也做过了。现在的语音交互,对话智能,现在在什么样的一个阶段?

初敏:我是这样看的,你要单说单个的技术,其实每个技术都做了2、30年以上了,但是积累到今天,我觉得相对来说,也是天时地利人和都到这个点了。技术本身的效果已经开始呈现了。

一个是技术本身,对深度学习,包括对数据的采集和获取的能力有变得很强了。从这点来讲,从技术本身来说,其实是因为有了数据驱动以后,才会有了机器学习。

另外一个是试,我们今天做的很多的演示,我在很多年前,2000年前后,我刚进微软的时候就有了。你在电脑上做的所有的事情是很自然的。现在随着移动设备的普及,这种需求也变得很自然了。

目前还没有看到一个真正特别成功的,我觉得这个规模还没到,我觉得在未来这2、3年里也可以起来。这也是为什么今天有这么多人对这个这么感兴趣的原因。

不见得这么容易的原因是什么?它是一个大的系统的合成,不是某一个单元。这个技术要可以用在任何一个场景,在任何一款产品上都可以取得成功,这真的是一个系统工程。

主持人:问一下孝良,你是做声学的,还是刚才那个问题,现在到了什么阶段了?

陈孝良:可以从两个方面来说。从技术角度来说,声音学现在在语音交互里,理论性上也没有很大的突破。在技术领域上,和计算机学科这边也非常类似,原理跟以前也都是一样的。现在只是把一些原始的声学技术应用在其他的领域。在技术这个阶段来说,从有了之后到军工来去用,然后再到细分领域里,也在落地,但是也没有完全应用在整个产品中。

从产品角度来说,声学在语音交互这个领域才刚刚开始。这里面也有很多的坑,我们比初敏老师还要悲惨一点,有很多坑还没有显现出来。
比较典型的是近场到远场以后,事实上现在很难说直接就可以捕捉到现场整个复杂的声源场景。

主持人:就是远场获得的样本还不够?

陈孝良:不仅是样本的问题了。涉及到远场的时候,很多是物理上的问题。如果去用数据训练的话又会有一些问题,我们到底应该是偏向于哪一个场景?比如说去做自适应,这也会带来一些问题,容易发散。发散的时候,你会发现,你做这件事情还不如不做,这都是一个矛盾体。中间的矛盾如何去解决?在这里还需要很多产业化的实践,需要不断的去打磨。我也非常赞同思必驰刚才提的观点,是不是真正把技术打造成可以适应这样一个规模化的生产。

这个技术事实上没有太多新鲜的,或者是没有什么太多实质性、理论性的东西。

主持人:要解决落地的问题?

陈孝良:对,真正能上天,能带这么多人,我觉得还是要有一个质的差别。

主持人:冠春讲一下,你们先披露一下数据量。

汪冠春:我们是要打造一款最靠谱的智能助理,以前在百度的时候也做过语音助理这样的产品,但是留存是比较差的。今天,我们是有更好的技术了。但是,功能也收窄了。

主持人:为什么留存比较差?

汪冠春:一方面是语义的技术比较差。另外,用户对全能智能助理的期望值是比较高的。我们自己做的C端产品是小来,一个秘书可以帮你很好的安排所有的日程,把这个功能点做到极致,我就可以有留存。今天在C端的用户量上已经到了将近300万的级别。我们在为B端的合作伙伴输出的时候,也输出了服务,这个量级已经到了千万级了。

主持人:有什么垂直类的服务吗?

汪冠春:我们自己的秘书产品有日程安排、订咖啡、跑腿、差旅、出行。
我们还在输出智能化的服务,以及对应的技术,给到母婴、商旅、汽车等行业。

主持人:现在的留存和应用的状况是什么样的?用户满意度、重复使用率到了什么阶段?

汪冠春:C端现在每周可以做到将近70%。

主持人:小秘的那个吗?

汪冠春:对,秘书产品。

主持人:这个数据是不是可以大规模的进行推广?

汪冠春:你做窄的时候,用户群体就会变得更窄一点,全中国有秘书需求的用户还在千万级别,百万级别的用户量机在这个市场上也有一定的渗透了。初敏老师也提到了,智能助理,对话平台是一天天发展的。你要变成所有人都能接受的一个概念,或者是一个产品的话,我觉得还需要时间,也可能是一个个的垂直领域打造出来的。

主持人:请问海知,你们是什么状况?

谢殿侠:我们相当于2B,或者是2D,面向C端的用户。

主持人:哪些是最活跃的?可以分析出来一些什么状况?

谢殿侠:反过来说,就是定位。也像前面讨论的一样,在若干年前的时候,这些功能系统上都有。现在做产品、做工程,要取决于工程的门槛。从14年开始做的时候,我们也意识到一个问题,在相当长的时间之内,在语义理解这个层面,没有办法做开放的、通用的。所以,有时候我们也在想,要解决特定场景、特定用户的特定问题。现在在智能家居这个领域,你像天气、百科、音乐,甚至是小玩的词语接龙,这些也会更加的实际。
在开头的时候,我们公司的同事一看这么简单,有人愿意玩吗?

主持人:什么样的词语接龙?

谢殿侠:你说苹果,机器人就说果脯,就要同语、谐音,然后再有成语接龙,然后再复杂一点还有诗词接龙。

主持人:挺有意思的,可以看到用户的量和留存吗?用户会持续去用吗?

谢殿侠:不同的设备,不同的技能,可能会出现一些时间的波动,并没有出现稳定的、持续的、爆发性的增长。我们面对的是家庭。

汪冠春:补充一下,今天在市场上有两股力量在发声。一个趋势是IOT、智能家具、可穿戴设备,这必须通过语音对话来做交互(刚性场景)。车萝卜这样一个产品的黏性应该是很好的,留存应该也是非常高的。当然,它也是一个非常特定的场景。

另外一个比较大的趋势,来也作为抓场景的公司,我们也可以看到及时通讯这个平台在手机时代也变得非常普遍了,所有人都在用。用GUI APP很难捕捉到的服务、行业场景,在这个IM当中也可以很好的得到落地。

举个例子,今天小来自己做了秘书化的这种服务,如果我真有一个秘书,我跟他的交互是很频繁的。在微信当中用社群的方式来做电商的、教育的、母婴类的。他们也会有很丰富的对话场景,这个时候不只是语音,语音只是一种模态了,它会有很多自然的对话,一边有问答的,一边也任务型的。在这种场景下,它的留存也是非常高的。

主持人:有很大一个应用是智能客服,初敏老师在阿里做过,双十一的时候就有海量的客户需求。现在智能客服做到了什么程度?

初敏:客服是大家最容易接受的场景,企业都要提供基本的客服,现在用IM这种形式的也越来越多了。在这种场景下,你就要雇多少人来培训,教他们。其实所有的服务都有一个自己的服务体系。如果用人教的时候,你看我有一个话术,训练人怎么去回答好问题。你每招一个新员工,他也不懂这些东西,都要一步一步的教下来。你只要被模式化过了,这部分的机器就比人的优势更大,回答反而就是一致性的。现在很多企业已经在实实在在的在用了。但是,还是不够理想。交互过程当中也会有一些障碍,包括识别、理解的对不对的问题。也可以看到,市场是非常大的。大家今天看重的,或者是大众感知的,是以端为入口的语音交互,但是对于一个企业,我觉得很多的是把自己的信息、自己的资源更有效的技术组织,然后变成一个智能的服务。

一旦技术成型了之后,服务的环境会有很多。

主持人:半人半机混合式的。

初敏:不一定是今天理解的客服,而是说把很多信息,无论是介绍、推荐,各种都可以做到,这样的话也会非常有前期。

主持人:非常好!这也是思必驰的一个目标。

初敏:是的。

主持人:冠春,思必驰这样一个生态对你的帮助是什么?

汪冠春:我们跟思必驰的合作很早就开始了,我们想用到语音技术的时候,那个时候除了讯飞、百度,我们想选一个技术很好的公司的时候,我们就想到了思必驰,那是在2、3年前。今天有了DUI平台以后,我觉得来也跟思必驰的合作又再上升了一个台阶。我们今天做的小来这样一个秘书的产品是比较专的。自然语言对话有一个很大的特点是用户的需求很容易发散,虽然我的咖啡订的很好、日程安排的很好,但是用户偶然也会去问一下我今天的星座运势如何,如果一家公司全都去做的话,这就得变成谷歌、百度这样的公司了。今天如果有DUI的话,我就可以很容易的通过DUI来接入海知这样的能力,我一下就可以变得从一个只能做2、3件事情的秘书变成能做10件事情的秘书了,对于用户来说也是超预期的。而且,我自己投入的成本也不大。

反过来说,无论是2C还是2B,在特定领域中做语义对话的智能处理的产品,我也可以通过DUI输出到其他的产品上。今天更多的是在IM的平台上,如果我想很快的跟智能硬件做集成的话,比如说让一个智能音箱上也有一个很靠谱的秘书,或者是在儿童机器人上让它具有母婴知识问答的能力,我就可以通过DUI的平台输出给做这方面工作的开发者。我觉得这对创业公司的长远发展也有很大的帮助。

主持人:谢殿侠你怎么看生态这件事?

谢殿侠:尤其是创业公司,要专业于细分领域,做得足够的专业,专业到在这个领域里你是做得最好的一家。这就意味着,大家做的工作是细分的,但是,用户的需求是延续的,在这种情况下意味着什么?就是开放合作。我们只做语义理解,我们不做语音识别、不做语音合成,也不做硬件,但是,如果要打造一个智能灯,这个光靠我的力量也不够,这就需要整个生态的力量。

反过来,即便我们做了语义理解,我也不可能解决所有的问题。在这个层面上,同行加在一起来做,来提升用户的体验,这在技术发展的初期,在市场需求非常大的情况下,就可以联合起来,比单个自己去解决一个问题的话,带来的体验感也会更好一些。

主持人:孝良你分享一下,我们进入到语音交互时代,这个生态会是什么样的?

陈孝良:从前端来看,开放是一种必然。事实上有两种模态,有封闭,有开放的。很多还是喜欢做封闭的生态。之前的时候我们和思必驰也有合作。如何把合作推到更广的层面?从我们来说,还是很少能做出这种表率的。将来还会存在封闭的格局。很多公司,也有一些创业公司,也会走向一个封闭的生态。

主持人:封闭的定义是什么?讯飞、百度算封闭吗?

陈孝良:比如说亚马逊,比如说苹果,我们有很多公司。

主持人:亚马逊算封闭?

陈孝良:说苹果吧!亚马逊现在放在一个封闭的生态里最好一点。我们来看整个生态的时候,亚马逊对生态还是比较打压的。开放不只是说一个口号,这种胸怀是说,一些企业可以在里面共同发展,说俗一点就是共同去赚钱。
我们说一下汽车的生态,各家都在赚各家的钱,如果说你达不到相应的收益,这个生态也很难维持。从现在来看,我觉得亚马逊还没有做到真正的开放。封闭和开放还是会进行PK的,对我们来说,开放是占主导的。
在整个链条里,你造一家飞机,你是很难把控的,这是一个很长的链条。刚才大家也听到了,我们拿话筒的方式不一样,大家听的也会很累,放的稍微远一点,大家也听的累一点。我们要解决很多的差异性,这是一件很难的事情,而且你还要考虑所有的差异性,你才可以保证这个产品可以真正的落地。将来究竟是封闭还是开放?从我们的角度来说,我们肯定会把这个票投到开放这个生态里来。

谢殿侠:我们不说格局、胸怀、道德、境界,我们就说企业的利益诉求。为什么在传统的互联网的商业生态里封闭取得了成功?是因为一个企业的力量足以把整个产业链全部抓在自己的手上,最后就取得了垄断效率,就取得了成功。
现在做的是语音交互,它不是人人交互,它是人和机器交互。语言到今天为止,人类的技术还没有办法让机器真正的懂人的语言。知识:你不仅要有语言,还要懂知识。到今天为止,我们并没有构建一个非常完善的人类的知识库。在这种情况下,我想就算是把地球上所有的公司加在一起的力量,可能也不一定在有限的3、5年把语言、知识的问题解决的。所以说,开放语言生态这会是一个必然的路子。

主持人:问一下初敏老师,微软是一个大生态,后面还有移动生态,您觉得后续的语音交互时代的生态,包括思必驰也做过AIOS,我们也想做一个OS,会存在吗?或者说思必驰会成为一个OS的平台吗?

初敏:其实我是这样看这个生态的,刚才各位也在讨论所谓封闭的、开发的,不谈别的,就谈利弊吧!苹果就是一个非常封闭的生态,它的全链路是自己控制的,所以运转起来就会更好,所以大家就会感觉,他的手机的体验的会更好一点。如果东西可控性好的时候,串联是容易的,难就难在,所有东西可控,其实一家是很难做到的,今天的矛盾也来自这里。在人工智能,其实也不光是语音交互,也是这样一个技术本身的难度也已经很高了。在这样的情况下,一家想打造的非常好,也会变得越来越难。所以,这个时候就要更倾向于开放的生态。
开放里的难处是什么?其实还是各家的衔接。在生态里不可以做衔接做的好好,就像飞机,或者是汽车一样,它是生态,但是实际上它还是有很多的标准。我们在这个领域里,我觉得要逐渐走出这样的形态之后,这个生态才可以真正的完善起来。
前两年,我们在阿里做的时候,也做了很多的落地工作,你碰到的不光是技术的问题,从对接来说,也会有很大的挑战。建生态,在生态的过程中,这不是简单的工作,一堆人来做就可以了。在这个过程中,所谓的平台就是来解决这样的问题。把一些东西规范一些,标准一些。无非是说,这个标准是我一家提的,还是从某一些联盟开始提的,我觉得这个发展趋势会是这样的。把一些模块化的东西做得逐渐清晰,把模块化串联的关系相对来说做得标准化。我们今天讲的生态更多的还是在讲技术。在座的刚才谈的很多也都是在技术核心上来说的。
从我自己的观点来说,这是一个发展的方向,但是也有一定的难度,就是最终这个生态如何串起来,真正的有效运转?这也面临着很大的挑战。

主持人:在座的试过我们语音交互的产品吗?我想试过的比例应该不是很高。真正需要落地的话,还是需要技术、产品的突破,找到更好的场景。
刚才我也问了大华的梁总,他们也跟思必驰有合作,问他们合作的机器人到底怎么样?我自己也很关心,他说这个不是很重要,因为卖的不是很多(相比主营业务),但是他通过卖机器人得到的跟用户的交互,他说可以做到摄像头里去。我想请你们提一下,你看到的大规模落地的,产品也好,场景也好,在语音交互、对话这样一个场景下,有什么样的状态?

汪冠春:我们这边更接地气一点,我举个例子,这个场景我们自己都没有完全做到,但是我觉得如果技术足够好的话,或者是AI、语音、对话、落地非常好的一个场景。在金融领域,今天有一个行业叫催收的行业,他们会有催收员打电话,他们会有一个列表,拿着这个列表去查用户的信息,就像侦探一样,其实也是在做用户画像搜索的分析,然后用语音电话的方式跟客户沟通。你用什么语音、语调、语气跟客户对话,这也是很关键的,对是否可以把这笔钱追回来也会产生很大的影响。AI如果真的很强的话,这个环节其实也可以大大提高催收员的效率,或者是替代一个不是很强的催收员。可能每天都会有几十亿的账被催回来,在这个行业也会有百万级的从业人员。如果有一个智能催收员,AI催收员的话也会解决很多的问题。

主持人:很有意思的场景。

陈孝良:我们比较关注产品,刚才张总也提到了,虽然我们现在的量不是最大的,但是我个人还是看好电视。在一个客厅里,电视还是有它的竞争优势的。在交互的时候,如果没有一个视频的画面去补充,互动信息的时候,我觉得有时候单纯的一个语音交互,它的留存度就不会那么高。音箱最重要的还是听音乐,听音乐还是基于任务去驱动的

主持人:比较单任务。

陈孝良:体现智能的地方不多。在电视里有一个很强的需求。现在的智能电视,首先要看这个摇控器,绝对是不好使的,按传统电视还可以,但是智能电视里你要找相应的内容,在海量的内容里去找也是很复杂的。如果是一体的电视,随着屏幕越来越薄,这个时候也会影响识别率,如果是分体式电视,有机顶盒,保证用户的体验在80分左右,我觉得对用户来说也会非常好,用户留在电视上的时间也绝对会超过其他设备。在汽车里也是一个,但是相对来说,最大的还是电视这个领域。

谢殿侠:如果是场景的话,家庭场景在这一两年可能会有一个很大的爆发,比如说早上AI的闹钟,然后到日程提醒,这是你的私人秘书,晚上回家炒什么菜,会有菜谱,我吃什么,孕妇吃什么,吃完饭以后跟小孩一块玩一些游戏,或者是听听音乐,音乐也有智能,音乐的服务不是做一个语音查询,实际上它是可以懂你的,除了查询之外也可以给你推荐更适合你的音乐。现在看到的是音箱、电视、冰箱,刚好小米也在跟思必驰一起合作(音箱、电视),实际上,带点的设备都应该具备这种能力,台灯、洗衣机,要让产品的价格足够低,产品的特性足够高,然后再加上DUI,加上我们就齐活了。

主持人:初敏老师你看好什么呢?

初敏:我很难说看好单一的某一个东西,他们两位讲的是端,我觉得跟这个事情发生的节奏是有关的。第一,必须要有端,有了端以后才有语音。从端里,我其实蛮同意几件事的,第一个是车。家里如果是以客厅为中心的,这就是电视。如果大家更喜欢厨房的环境,音箱也会是一个中心。它起的作用是什么?我不相信家里的每一件电视都要跟它说话吧!但是要有语音控制。我觉得家里一定会有一个入口的东西,可能是一件或者是两三件,但是不可能说你家里有20、50个电视,每一个都要装上麦克风阵列,这是会疯掉的。
今天看起来,相对来说,我觉得客厅里的电视会更为唤醒一些。

主持人:你们都不看好音箱吗?

初敏:我是有一点保留看法的。如果想听音乐的话,这是最好的东西,如果讲入口,今天你推一个新入口,那是不用电视了,从某种角度来说。还有一个可能就是耳机,如果你的耳机可以跟所有的电器接通,这也是一个非常有潜力的东西,这是一个入口。在讲入口的时候,我们在背后要有足够多的服务让这个入口进去。其实最大的场景,后续是在那个地方。如果这个入口技术可以了,我起到入口作用的时候,主要是看我接入了哪些服务。
这个行业要起来是说,有了这样的入口之后你可以干什么,这才是最本质的,回到刚才的生态的话,这要有很多的服务,有很多2C的服务,也会有很多2B的服务,比如说客服,我的电视坏了,冰箱坏了,你是不是可以上门服务,然后3分钟就来了。我开车的时候就会说,路灯在哪里?我不知道。会有这样的问题,这些是不是都可以打通?这也是语音是否真的可以成为入口的一个原因。有了入口就要有内容,要有语音交互,可以访问到。这就需要有自然语音的各种技术,再就是数据的组织(会变)。今天的入口是搜索,这个东西是需要变的。一系列看过来之后,你才可以是一个全套语音交互的入口形态。

主持人:总结一下。语音交互智能时代的基础键正在丰富、丰满中,但是真正的大规模应用、落地的场景,还需要各行各业的人加入进来,一起挖掘。就像当年PC之所以可以成为个人的工作平台一样,是因为取代了计算功能。苹果手机出来的时候,大家也不知道它可以干什么,有人就做了《愤怒的小鸟》给大家展示,原来还可以这么玩游戏。语音交互时代的实现,我觉得还需要时间,也需要思必驰去建设这样一个生态,去进行挖掘。但是,这也是一个必将到来的时代。我们也很高兴可以参加这样的一个讨论,也希望我们在未来的时候,可以看到各种的应用都可以丰富起来。
评论