返回 登录
3

阿里iDST华先胜:城市大脑,对城市的全量、实时认知和搜索

阅读2229

10月11-14日,为期四天的2017杭州云栖大会(门票火热抢购中!)将再度在杭州云栖小镇起航,作为全球最具影响力的科技展会之一,本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲,CSDN授权转载了云栖大会嘉宾的专访内容。第一位嘉宾是阿里巴巴iDST副院长华先胜,他将在10月的云栖大会上分享关于计算机视觉领域的前沿趋势以及城市大脑最新的进展。

图片描述

华先胜是视觉识别和搜索领域的国际权威,曾担任 ACM Multimedia 等大会程序委员会主席,他还是国家千人计划专家、IEEE Fellow、ACM杰出科学家、2008年度MIT TR 全球 35 位 35 岁以下的杰出青年创新人物。

2015年,华先胜离开职业生涯起点的微软研究院加盟阿里巴巴,在搜索事业部负责电商图片搜索技术的优化,并带领团队研发了手机淘宝中的拍立淘;2016年4月他又加入阿里人工智能研究机构iDST,带领视觉计算团队的研发工作,目前,其负责的项目之一就是城市大脑。

在7月底结束的全球计算机视觉顶级会议——CVPR 2017上,作为iDST视觉计算组负责人,华先胜受邀发表了《Practices of Large-Scale Target Re-Identification》的主题报告,报告中提到了城市大脑项目。

挖掘城市异构数据的价值

2016年的杭州云栖大会上,城市大脑首次对外公布。彼时阿里巴巴集团技术委员会主席王坚在介绍城市大脑时表示:“城市大脑的内核采用阿里云ET人工智能技术,可以对城市进行全局实时分析,自动调配公共资源,修正城市运行中的缺陷,成为治理城市的超级人工智能。”

一年后的今天,城市大脑是对外界来说依旧是一个似曾相识但又神秘的项目。如果用一个通俗而又古老的词来定义,你可以称之为智慧城市,但事实上城市大脑已经远远超越了大家通常谈论的智慧城市。

用华先胜的话说,城市大脑的核心是利用大数据和大计算来挖掘大量城市异构数据的价值。

城市异构数据是什么?它有两个特点:

首先,城市数据是视觉数据、公交数据、GPS数据以及人口等异构数据的聚合体,当然,在这些数据中视觉数据是量最大也是最核心的部分;其次,城市的数据量很大,例如一座城市拥有十几万摄像头,每天24小时产生的数据量是非常大的。因此,拥有海量数据是城市载体的天然优势,但如何挖掘数据的价值则是城市大脑的使命。

“过去,这些数据的价值并没有被充分挖掘出来,海量设备的部署和运维成本很高,但它的价值远远不只是传统的车牌识别和交通处罚。”华先胜如是说。

城市大脑打造的是一个具有数据智能的城市,它可以通过对城市的全面、实时和全量感知来识别车的形状、型号、路径、速度,或者感知行人和骑行人等等,在此基础之上,再进行决策优化、预测以及干预,城市数据的价值也就逐渐显现出来了。

华先胜用交通状况举了个例子:一旦遇到突发情况,城市大脑就可以立即找出相关的数据,比如查找嫌疑车、肇事车、嫌疑人;然后还可以基于分析后的数据对整个城市进行交通的优化;更进一步,城市大脑还可以对即将发生的事情进行预测,例如10分钟以后哪里会出现交通拥堵?或者更长时间的预测…根据预测出来的结果,就可以提前进行警力和医疗资源的部署,甚至提前做一些交通管制、限流等等,避免事故发生。

对此,华先胜还表示,对城市数据的全面感知主要得益于两大技术:一方面是计算能力的提升,云计算、GPU、FPGA等都让我们可以实现海量数据的计算,同时实时处理千路、万路,甚至更多路的视频;另外一个核心原因是深度学习算法对计算机视觉的推动。

目前,华先胜所带领的视觉团队在算法上已经取得了很多突破,他们在服务器端用更优的算法实现了更精准的车辆检测、车牌识别,同时可以实时监测事故、预测交通状况,而且城市大脑也已在杭州城区和萧山区已经部署运行了很长一段时间。

“我们能做大规模的视频处理,这对效率和稳定性都是一个很大的挑战。过去的大半年时间,经过不断的迭代优化,我们在整个链路的处理速度提升了20倍。”

从感知到搜索

在城市大脑项目中,计算机视觉无疑是最重要也是最具挑战的部分。华先胜表示,视觉数据是城市异构数据的核心,它比其它数据更加全面,因此城市大脑项目在视觉方向投入的人力也是最多的。

“视觉的数据在覆盖上没有GPS数据好,因为它是个断面数据,但是视觉数据更加全面,它可以知道整个路口的详尽的情况。”

但是,除了视觉感知、识别的基本问题外,城市大脑还会涉及到基于视觉的结构化数据之上的问题,例如搜索。

和拍立淘的电商产品搜索一样,城市大脑同样需要对图像进行实时索引,通过摄像头的视觉数据进城市的索引和搜索,这是该项目的突破之一。

华先胜表示,从技术角度看,城市图搜的技术整体路线和拍立淘是类似的,首先要知道目标在哪里,也就是目标检测;然后是识别车或人等移动目标,以及这些目标的属性;最后是要抽一个特征,一个高维向量,代表这个目标的本质特征。

但是,城市图搜远比商品搜索问题更复杂:同一商品的不同实例对于电商搜索而言是一样的,但是相同型号、不同车主的车却不相同;另外,人的特征描述和搜索也是一大挑战,当人脸看不清楚的情况下问题就变得棘手了,这是实际应用场景中需要克服的难题。

当然,对于iDST视觉团队而言,他们已经走在了行业前列,目前在公开测试集上,该团队的成绩已经超越了公开发布的最好结果。

再谈商业化

人工智能的发展方兴未艾,最近几年国内外涌现了大批人工智能创业公司,能否商业化便是检验企业实力最好的标准。

华先胜认为人工智能商业化要满足五个条件:

  • 第一个是算法,好的算法是基础。

  • 第二个是要有数据。

  • 第三个是用户。

  • 第四个就是平台,要有强大的计算能力和一套体系架构(当然云计算已经帮很多创业公司降低了门槛)。

  • 第五个就是有好的商业模式。

目前,人工智能企业大部分都专注于视觉应用,毫不夸张的说,计算机视觉领域已经是红海一片。但不可否认的是,计算机视觉是人工智能落地最快的技术之一。华先胜谈到,未来在视觉方向有五大应用趋势:

  • 首先是交通安防,也就是城市大脑专注的方向;

  • 其次是富媒体,就是通过视觉的方法去挖掘大量的视频、图像数据的价值;

  • 第三个是医疗图像方向,虽然医疗领域的落地时间可能会稍微远一点,但未来这是一大热门;

  • 第四是工业视觉,未来可以通过摄像头来代替过去绝大多数需要人眼来检查、判断的场景,这是一个尚待进一步开垦的领域;

  • 此外,端上的视觉智能也是很好的方向,包括芯片和一些基于视觉的应用。

不难发现,上述领域也正是阿里云城市大脑、医疗大脑、工业大脑研发的方向,但不同领域存在的差异也是显而易见的。在采访的过程中,华先胜多次强调深入行业的重要性。人工智能正在逐渐渗透到各行各业,但人工智能技术要发挥真正的价值,除了基础的数据和算法之外,对场景的深入研究也尤为重要,否则人工智能描绘的蓝图再美好也只是黄粱一梦罢了。

评论