返回 登录
0

【AI创新者】云知声梁家恩:当 AI 遇见 IoT——云知声的 AI 之路

【AI创新者】是CSDN人工智能频道精心打造的专栏,本期主人公是云知声创始人、CTO梁家恩。

记者:王艺 更多【AI创新者】征集中,采写AI领域杰出学者、资深专家、技术缔造者、顶尖团队。寻求报道请邮件wangyi@csdn.net,或扫描文末二维码加我微信。

梁家恩的办公桌很干净,一台电脑,两小瓶会客用的矿泉水。过少的媒体曝光让他归于神秘,三年来,醉心技术的他带领着团队为业界带来了不少惊喜。

早在2012年创立之初,梁家恩和创始团队便已设想和规划了团队的人工智能布局,这也是“云知声”三个字的来源:云——指底层的大数据机器学习及服务平台,是数据和智能的核心载体;知——指语言、知识与思维等认知能力,是人工智能的核心;声——指云知声目前广为业界熟知的物联网语音交互,对云知声而言,“声”就是智能终端的切入点和语音大数据的入口。

图片描述

云知声的AI之路从“云”开始

梁家恩本人从2001年读研究生开始,就涉足语音行业,至云知声创办初期,已有12年的积累。

云知声在创业初期,创始团队不到10人,都是技术背景出身,80%都是博士,在业内有多年经验。作为从业多年的老手,梁家恩及其创始团队深知数据对AI产业化的重要性。因此在2012年AI产业还未受广泛关注,国内语音云平台还处于付费服务的年代,云知声便本着收集数据和扩大影响的目的,免费开放了其公有云平台。“当时业内不是很看好创业公司做平台,但是我们很清楚数据对人工智能来说意味着什么。如果当时我们没有从云端收集这些真实用户数据,我相信我们的进程会慢很多。”梁家恩称免费开放云平台是基于两方面的考量:一是想让业界知道云知声的技术实力;二是让用户自由使用,收集真实场景下的数据和需求,因为云做起来之后会有很多衍生效应。

在公有云平台发布后,云知声仅用3个月的时间便将其深度学习系统上线发布。云知声于2012年6月成立, 9月语音云平台开放,12月底深度学习系统上线。

2011年,微软研究院的俞栋博士通过引入大词汇连续语音识别,将语音识别任务与深度学习方法相结合,取得了显著效果。但业内普遍认为由于计算量太大,训练和线上部署都很困难。云知声团队在深入研究论文的基础上,认为俞栋博士的论文在实际应用中是完全可行的,并认为这是团队在技术上实现弯道超车的机会。

在9月云平台发布后,10月份开始集中攻关。团队从淘宝采购游戏显卡,经过了从算法跑通,到模型优化、解码器优化、系统性能和稳定性测试等一系列环节,同年12月份,云知声在普通CPU上实现了基于深度学习的大规模连续语音识别系统,这一突破领先业内多半年的时间。

以云端服务为入口,云知声在业内取得先机,开始积累数据并迭代优化。后来,云知声发现,单凭云端要形成商业模式非常困难,特别是免费的云端服务,要转化为商业价值的路径还很长。在支持搜狗语音助手、乐视超级电视等客户应用后,2014年,云知声开始切入物联网智能终端行业。

人工智能产业化——2B or 2C?

对于为何选择物联网To B的商业模式,梁家恩解读到:“目前,人工智能技术本身还不能被称为一个产业,将人工智能与传统行业结合,去改变传统行业的应用模式、思维模式是现在人工智能产业的落脚点。物联网和人工智能是一种很天然的结合,这是我们创业的初衷,就我们四年来的验证来说,也确实是这样的。现在云知声的业务领域包括家居、车载、医疗、教育。这些传统行业与人工智能融合,确实有颠覆物联网产业的趋势。”

当被问及为何不选择To C的业务模式,梁家恩的回答很直率:“我们作为技术起家的公司,在产品、内容和服务上都不擅长。To C业务需要一个相对较长的过程,技术产品化、引导用户接受产品,都需要时间。用户想要的并不是简单的语音识别准确率,就算做到100%准确,没有内容和服务支撑来解决用户实际问题,还是没人买账。我认为人工智能产业想要发展,不是去创造一种新的需求,至少在眼下不是这样的。在现存的需求上提高用户的效率和体验,使操作更加便捷,逐步改变这个行业,在我看来才是可行的通路。在两年前,大家对智能硬件的期待还是比较高的,但现在存留下来的除了Amazon Echo,其余的出货量都很难超过十万量级。和手机时代完全不同,智能硬件时代的产品形态会更加分散。”在To B的大方向指引下,云知声先后与乐视超级电视、美的、格力等家电厂商及汽车后装市场紧密合作,逐渐形成行业领先地位。

IoT 语音落地的关键难点

人工智能与物联网的结合,绕不开两个基本问题:一是真实场景下的用户体验,解放双手和双眼;二是达到工业级规模化推广的完整解决方案。

虽然现在各家提供语音识别服务的企业都宣称识别准确度能够达到97%或98%以上,但往往都不考虑用户口音、年龄、应用场景、识别领域和计算资源等因素。业内人士心知肚明,这些才是影响识别准确度的关键。真实应用场景往往要比实验室复杂很多,如果产品不针对实际应用进行优化,97%或98%这个数字是很难达到的。

云知声在 IoT 产品落地过程中,主要解决了实际场景所带来的两大挑战:

1、远讲降噪

语音是相对多变且较容易受环境噪声干扰的,多变体现在不同用户口音、年龄、性别、说话方式等差异,干扰则来自于说话场景的回声、混响、噪声、录音距离、声学设计、麦克风选择、采集电路等,这些实际情况都会对语音信号造成干扰,进而导致识别错误。在高质量手机近讲的情况下,这些干扰不会明显体现,但当语音识别技术在实际应用场景落地时,这些因素如不加以考虑和针对性优化,语音识别的准确度会大幅降低。

远讲降噪是一个系统工程问题,涉及声学设计、电声设计、信号降噪和模型适配等问题。现有智能终端厂商(除手机厂商之外)在产品结构和硬件设计时,基本不考虑语音采集和噪声抑制问题,且市场上没有相关标准可循。云知声与声学和降噪合作伙伴一同探索,逐步形成自己的积累和优化办法。

业内解决远讲和降噪问题,通常用两种方法:

  1. 通过麦克风阵列的波束形成(Beam Forming,“定向聚焦”)来拾取特定方向信号,将目标信号从背景噪声信号中分离出来,并根据语音和噪声的统计学特性,进行回声消除(AEC)、混响消除、噪声消除、语音增强等,提高目标语音的信噪比;

  2. 模拟各种真实场景下的语音数据(数据覆盖),迭代训练,用深度学习模型进行匹配,利用深度学习的特征抽象能力,学习出真实噪声场景下的语音特征,提升识别精度。

通常情况下,各家的做法是以上两种方法结合使用,才能达到最好效果,但各家发力的侧重点和策略是不同的。目前业内很多企业采用的都是看上去更“高大上”的“8 麦、6 麦、4 麦”圆形阵列方案,有些还在中间多加一个麦克风,形成8+1、6+1、4+1方案等,侧重点在于利用更多麦克风更强的波束形成能力,从前端信号处理层面提高远讲和降噪能力。但这种解决方案对麦克风性能的一致性、处理器计算资源等要求都比较高,在结构安装、规模量产和成本控制上都有明显劣势,比较适合做智能硬件单品,类似 Amazon Echo(Alexa)。

而云知声采用看似更“另类”的“双麦”方案作为切入点,主要优势在于对麦克风一致性和计算资源要求较低、结构安装便捷、更适合规模化量产和成本控制;劣势在于前端信号的降噪和增强能力要比多麦克风稍差一些。为此,云知声通过提升后端模型能力来提升整体识别效果。两年之后的2016年,Google Home 推出,也采用了双麦克风技术方案,与云知声不谋而合。

2、离线优化

家电智能化已经成为行业共识,更是产业必争之地,语音交互走在了家电智能化进程的最前列。除了智能电视,现有家电控制系统通常采用嵌入式微控制器(MCU)方案,计算资源极其有限,且不能保证实时联网。智能车载后装市场虽然采用 Cortex-A+Android 方案,增长迅速,但计算能力和智能手机还存在相当差距,网路普及和稳定性也是问题。因此,云端方案在实用性上受到极大的限制和挑战。低资源下的离线语音识别优化成为家居及车载IoT行业必须解决的问题,主要挑战在于:

  1. 如何进行模型压缩,将云端数百MB甚至上GB的模型,压缩到 1MB 甚至 100KB 量级(约1000倍),还要尽可能使得模型压缩带来的精度损失降低到最小;

  2. 如何在计算资源极低的芯片上,实现实时语音降噪、增强和识别,确保较好的识别体验;

离线识别与云端识别的理论方法没有本质区别,但由于芯片计算和存储资源有限,在模型及计算上都需要做裁剪和压缩。

云知声通过不断的试验和优化,再次挑战了不可能,最终在低至 Cortex-M 级别的芯片上(100 MHz 量级主频/100 KB 量级内存),实现了基于深度学习的语音识别方案,在业内处于领先水平;同时,也在软硬一体模块方案基础上,推进芯片化方案 AI Chip。

3、云端优化

终端的降噪和优化,为云知声智能方案落地取得了领先优势,成为智能家居和车载后装市场上的领跑者。但云知声非常清楚,云端才是未来持续竞争优势的依托,真正智能时代的到来,离不开强大的云端智能,因此,云知声在通过“声”方案落地形成商业和数据闭环的同时,也在积极推进“云”和“知”升级,梁家恩认为,这才是云知声的未来。

人工智能产业化是场耐力赛

谈到云知声的未来,梁家恩表示,云知声的 AI 核心技术和“云-端-芯”产品体系,在未来几年还是会持续创新和快速演进的。云端的认知计算和大数据机器学习平台,将是重要的技术支撑点,而轻监督和无监督的大数据机器学习技术,在未来是最值得期待的突破。

梁家恩讲到:“人工智能产业化是相对较长的赛道,是不能靠抢跑取胜的,要靠内力提升和对时机的把握。”目前云知声的核心技术团队中 90% 是硕士/博士,核心骨干有多年的产业界经验。用梁家恩自己的话来说,“都是老司机”,但在面对创业路的问题上,要始终怀有一颗开放和应对变化的心,这是梁家恩的带队之道。


图片描述

图片描述

评论