返回 登录
1

人工智能的高层建筑取决于数据基础设施

10月11日,在2017杭州•云栖大会上,阿里巴巴集团正式宣布成立“以科技创新世界”的达摩院。不同寻常的命名,也沿袭了阿里巴巴一贯的武侠情怀。在金庸小说中,达摩院作为武学研究机构,代表了修为的高境界。顾名思义,在阿里巴巴的未来版图中,达摩院的愿景自然也代表着科技的最高境界。

据了解,这个未来将承载“NASA计划”的实体组织——“达摩院”,将主要致力于基础科学和颠覆式技术创新研究。这是阿里巴巴逐渐摆脱电商的影子,向真正的高科技公司转型的一个里程碑。

致力于这种转型的不止阿里。百度也在试图脱离搜索的标签,从战略到产品逐渐向AI方向转型。近期,李彦宏不仅宣布计划明年在中国发布一款全自动驾驶公共汽车。还致力于AI人才方面的布局,直指阿里的“达摩院”。百度近期还在深圳发布名为“燎原”的AI开发者扶植计划,并正式启动AI加速器一期报名。该计划希望在2018年实现与500家以上的生态合作伙伴携手共赢,并为行业培养5000名以上的深度学习高端人才,同时遴选60家以上的创业公司进入AI加速器,并投资10家以上的AI创业公司,促进行业发展。

数据是人工智能时代的基础设施

抢滩科技制高点的为什么永远是BAT?资金和人才当然是巨头公司的绝对优势,然而最宝贵的财富是他们的数据实力。阿里一直强调大数据的重要性,认为数据才是大前提,而AI只是阿里商业生态的工具,阿里拥有的丰富应用场景也是大数据的重要来源。马云认为数据很重要,是原料,没有数据什么都不行。

数据显示,2016年中国数据总量占全球数据总量的14%。据预测,到2020年,中国的数据总量将占全球数据总量的20%,届时中国将成为世界第一数据资源大国和全球的数据中心。

数据已经成为了人工智能时代的基础设施

然而这些科技创新的动作,基本上属于远离应用的高层建筑。不管是企业,还是普通用户,这些顶尖的科技计划都只能被当做膜拜的对象,并不能对生活真正起到什么实际帮助。

其实,真正改变人们生活的是已经投入使用的人工智能技术。其中语音识别、图像识别等技术是应用最为广泛的技术。从早期苹果的Siri,到语音输入法、再到最近国内的智能音箱,越来越多AI语音产品走入了大家的生活。

AI风口下 语音技术先行进入人们生活

AI语音技术的广泛应用,通过效率的提升,场景的便捷,重新定义了用户体验。

语音识别(Automatic Speech Recognition)是以语音为研究对象,通过语音信号处理和模式识别让计算机自动识别人类口述语言。简单来说,就是让机器可以听得懂人话。

在具体的生活中,语音识别技术解放了人类的双手并提高了效率。在一些基本操作中,无需要每个字都操作键盘或点击屏幕了。一分钟400字的速度靠打字是无法超越的,所以特定场景下,语音的技术可以大大的提升人机的效率。

目前我们用微信语音或者是Siri时,都属于近场的识别,而智能音箱,车载设备,机器人的语音都属于远场识别,远场识别会受到,距离,噪音,混响…等问题,需要有其他的相关技术来配合完成,提高识别率。

中国科技战略研究院有关专家对记者表示,“人工智能产业的发展离不开海量数据的支撑,数据训练量的大小影响着算法实现的成熟度。”

Google Now, Siri等已证明语音可以更智能,这也主要归功于应用场景的吻合及深度神经网络技术的引入。传统神经网络受限于数据不足,硬件功能不强大等因素;而深度神经网络则有几十上百层,每层有很多节点,更逼近人脑的思维能力,同时借助于大数据,极大地提升了语音识别准确率。

数据服务质量决定语音产品体验

在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。

这给从事语音技术领域的创业企业造成了很大的困难,如何获得优质的数据资源是直接影响产品体验的核心问题,BAT毕竟是少数寡头,大多数的语音技术产品依赖于成熟专业的数据服务公司。

数据服务的质量不仅决定产品的体验,更决定企业的生存和发展。这让企业选择数据服务公司的时候非常谨慎,然而近一年来,数据服务领域悄然杀出一匹黑马,收到了众多互联网巨头的合作要约。标贝(北京)科技有限公司成立于2016年2月,短短一年时间,已经成功为多个互联网巨头公司AI产品提供了不同规格的数据服务,并于近日正式获得全国高新技术企业认定。这个还未被广泛大众熟知的企业,其技术其实已经通过应用渗透到了大众生活的各个角落。

标贝科技是典型的幕后工作者,语音识别与合成是一件苦差事。在整个语音产业链条当中,标贝科技处于数据服务环节,具体而言,包括语音合成和语音识别项目,其中技术含量较高的语音合成又包括发音人选择、语料设计、语音采集、数据处理、语音深度加工等步骤,为客户提供一整套的定制化数据服务。数据类型上包括文本数据、语音数据等。

语音合成技术分两种,第一种称为拼接法。把语音里面所有的语料基础片段都录好,再根据需要,择取语音单元,并拼接成具体话语,这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练,合成新语段,参数法的优势在于对录音数量要求较少,几千句话就能出一个合成效果。标贝科技合成部负责人王艳茹表示,无论客户用哪种合成技术,都离不开专业的语音数据服务,而标贝最核心的任务恰恰是提供优质的语音数据,让客户可以专心于合成技术的研发,快速实现高质量的合成系统。

提供优质的语音数据只是结果,过程还包括语料设计,语音采集,音字标注、韵律标注、声韵母切分等模块。在语料设计方面,标贝科技在前期就针对客户需求制定不同的语料设计方案,不同领域采用特定的语料;在语音采集方面,为了保障语音质量,标贝安排专人全程监督录音棚录制过程,确保源头语音素材品质;在数据处理环节,标贝先通过计算机程序预处理,再由人工完善矫正,这样不仅提高了工作效率,还提高了数据处理的准确性。

传统的人工标注算是一种劳动密集型工作,难以大规模拓展和复制,但是标贝科技基于深度学习的预处理系统,不仅可以大幅改善自动处理的正确率,而且效率提升达10倍之高,可以大大降低数据加工周期。

除了提供成熟的基础数据服务之外,标贝科技还可以针对语音合成系统提供一整套的TTS前端解决方案,包括分词词性、韵律、多音字、数字符号等,这套方案使得合成系统的前端模块达到行业领先水平,从而使语音合成效果更加接近真人发声的状态。

标贝科技还拥有一支庞大的识别项目团队,提供语音采集、转写、语音标注、平行语料、图片采集、图片标注业务,其中语音采集包括情感采集、国内方言和普通话、少数民族语言(藏维蒙)、定制年龄语音采集(包括儿童老年人)以及国外语种(50多个国家),图片采集包括人脸(自然和情感)、道路(汽车、街景)、手写体等。

标贝科技投入运营时间不久,已经凭借高质量的数据服务在业界享有良好的口碑,在未来,标贝科技还将继续推动业务智能化,除了通过人工智能技术把简单的标注处理的更好,还将努力通过技术手段提升后期合成的准确度。

随着人工智能技术的高速发展,语音技术将在日趋成熟的技术上继续蓬勃发展,更多能听懂人类,或者能与人类深刻交流的智能产品将不断丰富大众的生活,这一切都将基于准确、高效、优质的语音数据服务的支撑。以标贝科技为代表的数据服务公司,也将在追求突破创新的过程中,扎实做好幕后工作,帮助客户盘活各类大数据资源,充分挖掘海量数据中有价值的信息,实现数据价值最大化,以推动相关技术、应用和产业的创新。

评论