返回 登录
0

【AI创新者】Twitter施闻哲:图像质量的评判标准是超分辨率的下一个关键

本文为CSDN栏目「2017 AI 创新者」系列专访之一。旨在通过对AI领域杰出学者、资深专家、技术缔造者、顶尖团队的采写与刻画,向业界展现最新行业案例与趋势。寻求报道请发邮件至wangyi@csdn.net

图片描述

若说近几年科技行业的最新最热,非人工智能莫属。由摩尔定律带来的算力倍增让深度学习算法得以施展。在底层技术精进的大环境下,图像、声音、语义、自动驾驶等技术均有所突破。各科技巨头纷纷组建AI团队以抢占先机,各司业务不同,AI发力点也各异。本期「2017 AI 创新者」系列专访的被访者施闻哲来自Twitter,是Twitter AI团队(Cortex)计算机视觉方向的负责人,从事超分辨率相关研究已有4年。

图像、视频及直播占据了Twitter信息流很大的一部分,因此,在有限的带宽下提高实时视频传输的质量对Twitter的用户体验尤为重要。2016年,Twitter以收购英国初创公司Magic Pony的方式扩大其AI阵营。Magic Pony采用神经网络来替换传统的人工设计的压缩算法,并在图像碎片补全、视频自动生成等方面均有科研成果。

施闻哲,Magic Pony at Twitter计算机视觉方向的研究负责人,于2012年取得英国帝国理工大学博士学位,师从Daniel Rueckert 教授,从事医学超分辨率相关研究。后加入Magic Pony,一年后Magic Pony被Twitter收购。其主要研究方向为:超分辨率、图像优化、图像补全、换脸等。

由于Twitter公司政策原因,本次采访中涉及Cortex(Twitter AI团队)的相关内容未能发布,但所幸关于施闻哲先生本人、其对超分辨率的理解及对科研方法的感悟得以保留。若您有意继续探讨,或与施闻哲先生做进一步交流,请于文末留言,我会第一时间回复。欢迎讨论。

• CSDN:加入 Magic Pony 之前,您曾于帝国理工大学从事过医学超分辨率的相关研究。 请问你为何选择它作为自己的研究方向?研究和工作方向的转变又是什么原因?可否谈谈背后的故事。

• 施闻哲:英国是一个非常有趣的国家,由于NHS这样全国性的医疗机构的存在,学术界获得了大量的医学研究经费。所以医学图像研究在英国高校是一个非常发达的领域,并且领先于世界。我的导师Daniel Rueckert 教授,现任帝国理工计算机系主任,是一位非常优秀的博士生导师。医学图像和计算机视觉又非常的接近,很多计算机视觉的会议都接受医学图像的论文。所以我就选择了这个领域。2015年的时候了解到Daniel的另一个学生Zehan和校友Rob 正在创办Magic Pony,当时就感觉公司的愿景同时满足了我对计算机视觉的兴趣和希望自己创造的东西能被千百万的用户使用欲望,所以就毫不犹豫的加入了他们。

• CSDN:算下来您从事超分辨率方面的研究已经有四年多了,能否就这门学科(尤其 是近年来)相关技术的更迭谈谈您的感悟?或者您在研究进程中遇到的值得分享的案例。

• 施闻哲:超分辨率和其它图像优化技术和图像识别分类的主要不同是要预测千万个像素而不是几千个类别。但它和一些其它的计算机视觉领域一样,在最近几年经历了从传统视觉到深度学习的过度。从2014年,Dong的三层网络到今天的几十层的ResNet和生成对抗训练,无论是速度,精度和对模型的理解都有了很大的进步。但是我们依然有很多工作可以做。

基于深度学习的图像优化技术可以大致分为两部分。第一部分是生成图像的模型,在这里一般来说是一个神经网络。第二部分是如何衡量生成图像的质量。传统来说这部分主要是基于像素的距离函数。近来越来越多的人开始使用基于VGG网络特征的距离函数.

2016年我们在超分辨率的这两个方向有了重大的突破。第一个突破是提出了一个高效提升分辨率的 sub pixel convolutional layer[1]。这项技术把神经网络进行超分辨率的速度提高了10倍以上,第一次做到了对高清视频的实时运算。第二个突破是提出了使用对抗声成网络来训练超分辨率[2]。通俗来说,我们训练一个网络生成高清图像,并询问另一个网络它能不能区分生成的图像和真正的高清图像。通过这项技术我们可以从长宽各缩小4倍的情况下恢复高清图像。肉眼几乎无法区分恢复的图像和原始的图像 。

随着神经网络构架研究的进步,比如ResNet,模型的质量会越来越高。在可以预见的未来,上文所提到的第二部分(图像质量的评判标准)就成为了难点。一个六岁的孩子都可以轻易地告诉你任意图像的质量好与坏,但是现在的技术却远远做不到这一点 。

• CSDN:类比医学超分辨率,深度学习领域也是一门交叉学科,能否就您自身的工作经验谈谈,在跨学科领域如何高效地自我提升?

• 施闻哲:我觉得最重要的是行动起来。初次进入一个研究课题我一般把它分成三个阶段。第一个阶段是阅读,了解最新的技术。但是很多人都停留在这一步。无论你读了多少文章,了解了多少知识,不通过实际操作你就没有办法真正吸收他们成为自己的知识。所以如果你的目标是提升自我,创造新的价值,你就要早早地进入第二阶段:实践。这一阶段的目标是挑选最有代表性或者是你觉得最有发展前景的的一个或者几个算法,亲手实现它。如果暂时做不到,即使是找到相关的开源项目,跑上几次实验也好。在这个阶段你要确保你能重现别人的结果,或者理解每一个参数和论文里的细节,这样你就站到了和大家一样的起跑线上。最后一个阶段是最有趣的部分,就是通过到这里为止学到的经验,去总结和思考,这个算法的问题在哪里,有哪些问题没有解决,如何解决这些问题,如何在前人的基础上更进一步。

• CSDN:当前英国 AI 产业情形如何?英国的 AI 公司更关注哪些方面的技术?与国内和美国相比,您觉得有哪些不同,是否有我们可以借鉴的方面?

• 施闻哲:过去几年很多英国的AI创业公司被美国大公司收购,包括Deep Mind,VocalIQ, Swift key 和Magic Pony。同时也有越来越多的老牌公司和新的创业公司加入到AI这个产业。原因之一是英国有着深厚的AI人才储备。英国有多所世界一流的研究型大学, Cambridge, Oxford, Imperial 和 UCL 等等, 每年都培养很多优秀的科研人才。坦率地说,现在在英国获取同样质量人才的成本比美国要低。与其他地区相比,也是值得借鉴的是,英国的AI产业总体来说比较务实,更专注于产品和应用。与其叫做AI公司,更多的是AI驱动的公司。大多数公司都有非常集中的一个从研究到产品的目标,从视频、语音、输入到安保和金融。我们处于一个非常幸运的时代,一项新的技术能瞬间地递送到千万用户的手上。如果你的技术能真正地服务到他们,那么你得到的收益也是之前不可以想象的。

Reference:
[1]Shi, Wenzhe, et al. “Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
[2]Ledig, Christian, et al. “Photo-realistic single image super-resolution using a generative adversarial network.” arXiv preprint arXiv:1609.04802 (2016).

采编:王艺,CSDN记者,专注人工智能。寻求报道及投稿请请联系wangyi@csdn.net。同时运营CSDN AI相关微信群,「面向AI从业者及研究员做深入讨论与交流,分享业内领先案例」,欢迎加微信Qunnie-Yi申请入群。(请备注姓名+公司+职位,以快速审核通过)

版权声明:本文为CSDN原创文章,转载请联系wangyi@csdn.net,未经允许禁止转载。


【CSDN_AI】面向AI从业者及研究员做深入讨论与交流,分享业内领先案例

扫码关注CSDN AI公众号 「人工智能头条」

图片描述

评论