返回 登录
17

【AI创新者】小蚁首架张骏峰:让图像AI人尽可用

【AI创新者】是CSDN人工智能频道精心打造的专栏,本期主人公是小蚁科技首席架构师,张骏峰。
记者:王艺
更多【AI创新者】征集中,采写AI领域杰出学者、资深专家、技术缔造者、顶尖团队。寻求报道请邮件wangyi@csdn.net,或扫描文末二维码加我微信。

张骏峰,小蚁科技首席架构师,负责小蚁AI图像相关算法架构。主要包括:小蚁智能摄像机的智能报警服务、小蚁智能行车记录仪的辅助驾驶ADAS服务、小蚁运动相机App的图像风格迁移技术以及小蚁微单App的图像视频编辑技术。其团队包括移动开发、前端、后台、算法,成员分布在北京及以色列。张骏峰于2015年加入小蚁,此前,张就职于微软长达14年,参与过Windows, .Net Framework, MSN, Office, Lync, Skype等产品的研发工作。

图片描述

小蚁科技成立于2013年,是一家年轻的互联网硬件企业。小蚁专注探索智能、可穿戴、移动化的新型视频类智能电子产品的开发,产品包括小蚁智能摄像机系列、小蚁行车记录仪系列、小蚁运动相机系列、小蚁微单相机等智能硬件产品,以及和谷歌合作的YI Jump 360°3D VR拍摄设备。同时,小蚁还有一系列的移动应用和服务,帮助用户更好地使用小蚁设备。

图片描述

CSDN:骏峰您好,小蚁的产品主打视觉。那么首先请您向大家介绍一下,在小蚁智能摄像机上,与AI相关的技术有哪些?

张骏峰:我们在小蚁智能摄像机上提供了多种智能服务。

智能报警

大部分的智能摄像机都提供移动侦测服务。当摄像机检测到画面有大幅变动的时候,服务器会向用户推送一条报警消息。

小蚁智能摄像机提供了同样的服务,同时,在报警的时候,向服务器上传了一张图片,和一段6秒钟的视频。这样即使有人把摄像机拿走了,用户还是可以看到发生了什么事。

传统的移动侦测方案,灵敏度是一个很难解决的问题。如果灵敏度太高,用户会收到过多的无效报警,可能会错过重要信息。如果灵敏度太低,会有重要事件发现而用户收不到报警的情况。我们提供了一个拉杆,用户可以在高,中,低灵敏度选择。

我们还提供了一种人形检测的升级方案。当用户把这个升级方案的开关打开后,如果检测到画面有大幅改动,摄像机会继续对画面进行进一步检测,只有在摄像机认为画面中有人,才会通知服务器给用户推送报警信息。这样可以大大减少误报的情况。

小蚁智能摄像机还提供了宝宝哭声检测。如果摄像机检测到持续的宝宝哭声,也会向用户推送报警。

手势识别

小蚁智能摄像机还提供了手势识别功能。当用户在摄像机面前做出“摊开手掌-然后握拳”的组合动作时,摄像机会自动录制10秒视频,推送给手机App用户。我家小孩特别喜欢这个功能,有事没事他就会试一下这个功能,然后给我表演一段僵尸舞。

选择“摊开手掌-然后握拳”这样一个组合,是为了减少误触发。

我们还在研究其他AI技术,比如人脸检测,人脸识别,物体识别,如何经济实惠地让这些新技术给用户带来价值。

图片描述

CSDN:除智能摄像机之外,小蚁也发售行车记录仪。那么在小蚁行车记录仪上,与AI相关的技术有哪些?

张骏峰:我们在小蚁行车记录仪上为用户提供ADAS智能安全提醒系统,有效提供安全提醒并实时纠正驾驶行为。主要是两个功能:车道偏移预警,前车距离监测

车道偏移预警

当车辆在高速上行驶时,如果行车记录仪检测到车辆偏移道路时,会提醒用户车辆已经偏移道路。

前车距离监测

行车时,如果行车记录仪检测到离前车距离越来越近,超过一定阈值时,会提醒用户注意保持车辆距离。

CSDN:在上述两种产品的模型训练过程中,训练集与测试集从何而来,采用何种网络及框架,在系统调优方面有何技巧?

张骏峰:开源的数据集和开源代码提供了基础的训练集和测试集。

但是这样的数据集训练出来的模型,放在小蚁的产品上,出来的效果不是很满意。

我们是有一批内测摄像头,免费送给用户。用户看到有意思的情况,分享给我们。内测用户很多是小蚁员工。我们根据用户提供的数据,调整模型,更新算法。

在实际产品上,我们采用的是一种“端+云”的混合方式。端上先做一部分筛选,云上再做进一步的处理。

限于硬件的计算能力,端上目前是用传统方法处理。

云上,我们现在使用的是YOLO模型,基于我们自己的情况,做了一些优化。

图片描述

CSDN:您认为图像分割、物体识别、目标跟踪这一系列技术的难点在哪里?

张骏峰:我们遇到的困难主要有两点:1.数据,2.优化

数据

虽然现在有很多开源数据集,但是,这些数据集是被用于学术界创新和研究的benchmark数据集。这些数据和真实场景下的用户数据差别很大,场景也不足够丰富。用开源数据训练出来的模型,识别率往往不够理想。因此,真实场景下的海量标注数据集是非常关键的。

小蚁产品的用户量很大,用户使用小蚁产品的场景各种各样,环境也各不相同。有些用户的使用场景也让我们大开脑洞。限于我们的人力物力,我们优先处理主要用户场景。

优化

如前所述,小蚁采用的是一种“端+云”的混合方式。不管是端还是云,优化始终是我们最大的挑战。

在端上,由于硬件限制,无法运行深度神经网络,我们目前使用的是传统方法。即使这样,如何更快的处理视频,也是很大的挑战。

在云上,我们用GPU服务器运行深度神经网络,费用很高。小蚁的用户量很大,用GPU服务器处理,成本压力很大。

我们迫切需要技术的发展,能够把不影响准确率太多的前提下,把处理成本降下来。

CSDN:除了小蚁目前正在做的,您对图像跟踪、识别这一系列技术的落地方向还有何构想?

张骏峰: AI技术现在已经很强大了。AlphaGo颠覆了人们对AI的理解。人脸识别的准确率不断被刷新。但是,AI用到真正的场景上,还是非常困难的。首先是数据问题。上面已经讨论过了。然后是模型的训练调参。这也是一个非常漫长痛苦的过程。然后是模型的验证。周而复始。由于这些问题,AI技术现在做好一个场景,需要花费很大的精力。

期待有一天,AI技术可以做到像使用AWS API这样简单。

图片描述

CSDN:自从生成网络火爆,图像风格迁移的APP便层出不穷,但似乎都还仅停留在娱乐层面,没有向更深更实用的方向发展,那么小蚁做AI艺术这个应用的初衷是什么,下一步将踩在哪里?

张骏峰:小蚁除了硬件产品,还有很多相配套的移动应用配合硬件产品。其中,小蚁运动相机/小蚁微单App提供了完整的硬件控制,图像视频编辑,社区分享的流程。我们一直在思考如何让用户玩得更好。

2015年底我们已经知道风格迁移的论文,并且做了尝试。那时候我们没有GPU机器,用cpu来实现处理算法,处理速度非常慢。尝试过一次后我们就放弃了。

Prisma的火爆,让我们意识到在风格迁移是可以有很好的移动用户体验的。我们开始使用购买GPU机器,用GPU来实现风格迁移算法。幸运的是,那时候已经有好几篇论文,把风格转换的速度提高了很多。我们在前人的基础上,实现了我们自己的风格迁移算法,应用到小蚁的移动应用上。

小蚁AI艺术上线的时候,正好赶上微信小程序即将上线的消息。我们立刻组织人员实现了小蚁AI艺术微信小程序版。由于时间紧迫,我们在最后一个星期六才提交审核。幸运的是,我们的小程序一次审核通过,得以在小程序放开的第一天,让用户使用。大部分使用过小蚁AI艺术微信小程序的用户,反馈都是非常正面的。在几乎没有推广的情况下,上线第一天获得了超过20万的使用次数。

我们最早上线的小程序只能处理图片。春节之后,我们更新了一版,最新的小蚁AI艺术微信小程序可以处理小视频。相信用户用小蚁AI艺术处理过小视频后,会有更深刻的感受。

现在的小蚁AI艺术,从用户体验上看,还有很多局限性。首先,每一种风格,合适于某一类图片。现在的体验,用户必须手动把所有风格都试一遍,才知道哪种风格合适。某一种风格,或者合适于人像,或者合适于风景。对于同时有人有景的图片,有时候需要做一个抉择。

我们能提供的风格模板也比较有限,用户使用过一阵后,新鲜感减少。最好的用户体验,是让用户任意指定一张照片,和一种风格,我们能把这张照片按照用户指定风格处理。我们现在的技术还无法做到这一点。

CSDN:您觉得图像风格迁移技术的难点在哪里,如何落地,瓶颈是什么?

张骏峰:首先是网络设计。各种论文上的方法,需要我们自己实现出来。但是按照论文方法实现出来后,我们发现效果不是很好,照片处理后有一种很脏的感觉。如何去脏,把照片弄干净,花了我们很多时间。我们对最终的效果还是很满意的。

然后就是风格的选取。选择一个对大多数照片都合适的风格,是一件很繁琐的事情。我们一开始就定了一个方向:中国风。事实证明,传统中国风,颜色比较简单,大部分的照片,迁移之后效果不太好。我们从两个方面解决这个问题。一方面,我们把中国近代的著名画家都找了一遍,试了无数张,最后从中挑了8种风格做为第一次的模板。同时,我们针对这8种风格,每一种风格都做了不同的网络优化。

整个过程中,我们发现,选择一种好风格,非常花时间。我们也希望能有一种工具,让我们很容易判断这种风格是否好。但目前为止,我们还没有找到这样的工具。

图片描述

CSDN:小蚁AI艺术训练所用数据来自哪里,采用何种网络及框架,在具体实施过程中有何技巧?

张骏峰:对我们来说,比较幸运的是,我们已经有一个小蚁社区,用户在社区上分享了很多照片。这些照片是我们的测试数据集。风格的选取上,由于我们主打中国风,我们主要的目标在中国近现代著名画家的作品上。

网络方面,主要是借鉴了李飞飞的网络,根据我们自己的风格,做了不同的调整。框架我们用的是Torch。

我们花了很多时间处理去脏的问题。这个也是一个开发灵机一动想到的办法,然后就好了。很神奇。

CSDN:小蚁AI艺术主打“中国风”,请问为何选择这种风格?

张骏峰:因为我们不想和其他人一样。很多App选择了西方风格。我们在中国,就应该选择中国风。这种选择让我们多了很多开发时间,但我们认为是值得的,也是我们为之骄傲的。

CSDN:在产品的研发过程中,团队遇到过哪些问题?是如何解决的?

张骏峰:服务端,小程序初上线的时候,很多人用,给服务器很大压力。我们使用的是阿里云的服务。在阿里云的HPC和阿里云OSS之间,对于高并发有一些问题。我们几次反复,和阿里云支持团队多次交流,最后解决。

小程序方面,很多H5有的功能不能使用,也让开发饶了一些弯路。比如,给图片加水印,就试了好多条路,最后是在服务器上实现的。

开发AI艺术小视频的时候,也遇到了很多问题。视频的方向是一个大问题。视频的处理时间比图片长很多,这使得我们不得不改架构。

大部分问题都解决了。但是在小程序上如何保存处理后的视频,我们始终没有找到一个好方法。现在只能让用户在我们提供的H5页面上处理保存视频。

CSDN:小蚁的产品及技术如何与竞品公司差异化?

张骏峰:听用户反馈,抓住每一个细节,紧跟世界前沿,学习先进经验,不断进步,努力做到更好。这是我们的原则。

CSDN:在管理方面,您有何独到的带队方式?

张骏峰:给团队高度,让团队用自己的办法达到期望的高度,然后告诉我他们自己可以达到的高度(必须比我要求的高度更高)。向世界最好看齐。

【AI创新者】专栏精彩文章:

Twitter施闻哲:图像质量的评判标准是超分辨率的下一个关键

云知声梁家恩:当 AI 遇见 IoT——云知声的 AI 之路

TensorFlow贡献者黄文坚:解读对比13个深度学习框架后的选择

TensorFlow 贡献者唐源:掌握 Google 深度学习框架的正确姿势


图片描述

图片描述

评论