最近,2019年计算机视觉和模式识别大会(CVPR 2019),在美国长滩市(Long Beach)举行。华为公司不仅是会议的铂金赞助商,其下属的诺亚方舟实验室更是在本届大会上发表(或联合发表)了27篇论文。这些,都充分展现了华为公司回馈学界和与学界共同成长的战略和决心。

华为诺亚的27篇论文,涉及计算机视觉的各个领域。从任务角度看,不仅囊括了传统的三大难题(分类、检测、分割),也在目标的种类(包括通用物体,也包括特定场景如行人、车辆、人脸等)上有很大的覆盖面;从方法角度看,不仅有日趋成熟的深度学习方法,也有自适应的域迁移算法和弱监督、自监督学习算法;而从贡献角度看,这些工作能够为学界提供丰富的视觉数据、完整的训练端解决方案和新颖的视角,以供研究和开发人员更充分地探索计算机视觉领域。

注:华为诺亚27篇论文的完整列表,请参见文末。

华为诺亚的计算视觉研究蓝图

华为诺亚计算视觉实验室在计算机视觉方面产出了积极的研究成果,同时在AI基础研究方面,有很深入的探索。在计算视觉实验室,视觉研究被划分为六大方向,包括底层视觉、语义理解、三维视觉、视觉计算、数据生成和视觉多模态。

计算视觉的六大研究方向

底层视觉:关注于底层图像特征的视觉研究,包括图像的去噪、去模糊、超分、去反光、去摩尔纹等课题。其输出成果将直接应用于华为手机拍照算法。同时,对抗攻击也被划入底层视觉的范围,以建立底层像素和高层语义的联系。

语义理解:计算机视觉最为传统和本质的任务,关注于对视觉信号的分析和理解,包括分类、检测、分割、边缘检测、姿态估计等具有重大价值的任务。随着深度学习的兴起,神经网络的可解释性也是语义理解的重要组成部分。

三维视觉:随着计算能力的提升,研究人员逐渐将精力从二维视觉问题转向三维视觉问题,以捕捉更丰富的语义特性,并且提供更贴近实际场景的应用方案。三维视觉的覆盖面十分广泛,包括三维感知(从二维输入推测三维输出)和三维视觉信号(包括点云、三维医疗数据等)的处理。

视觉计算:计算模型一直是计算机视觉的基础。在深度学习时代,如何设计高效的神经网络结构,是重要且意义深远的课题。从实际应用出发,“高效”的网络结构蕴涵多方面的含义,如精度高、模型小、运算快、耗费低,等等。网络结构搜索的兴起,为这一方向提供了全新的思路。

数据生成:在数据爆炸的时代,收集真实世界中的大量样本并且逐一进行手工标注,将大大增加建立视觉系统的成本。随着视觉生成式模型和三维虚拟引擎的不断成熟,利用生成虚拟数据辅助训练,正在逐渐成为主流方法。同时,数据生成技术还能够用于数字娱乐等实际场景中。

视觉多模态:在现实世界中,除了视觉信号,智能体还会借助其他模态的输入(如语音和文本)达到理解和感知的目的。将计算机视觉与其他领域(如语音和文本)的研究结合起来,是未来的大势所趋。这项技术将对机器人、无人驾驶等领域产生积极的作用。

CVPR 2019代表性工作介绍

下面,我们从每个方向中选取1-2篇被CVPR 2019接收的论文,以展示华为诺亚与合作单位在计算机视觉方面的最新研究成果。

【底层视觉】Adversarial Attacks beyond the Image Space

本文提出了一种算法,将传统的对抗攻击从二维图像扩展到了三维空间。也就是说,相比于传统方法——通过独立修改图像中的每个像素而产生攻击,本文直接在三维空间里修改有实际意义的物理参数(如旋转、平移、照明条件等)从而产生对抗样本。这些对抗方法提出了一个更值得关注的问题,因为他们证明简单地干扰现实世界中的三维物体和场景也有可能导致神经网络错分实例。本文所提出的流程是:先将三维场景(物理空间)渲染成二维图片(图片空间),然后经过神经网络把他们映射到一个预测值(输出空间)。本文讨论了可微和不可微的渲染方式,并且在两者上分别生成了对抗样本。本文所提出的方法在两类常见的三维识别任务(三维物体分类和三维视觉问答)上进行了测试,证实了物理空间对抗样本的普遍存在。

【语义理解】Iterative Reorganization with Weak Spatial Constraints: Solving Arbitrary Jigsaw Puzzles for Unsupervised Representation Learning

本文提出了一种适用于处理任意维度拼图问题的自监督学习方法。拼图问题将无标签图像按网格分割为图像块,并打乱它们的顺序,通过网络恢复正确的图像块布局,以达到从无标签图像数据中学习语义信息的目的。本文提出,以迭代的方式逐步调整图像块的顺序直到收敛。每一步都通过组合图像块中抽取的一元和二元特征,得到表示当前布局正确性的代价函数。通过考虑布局之间的联系,更合理地学习视觉特征。其有效性可从两方面得到验证。一方面,它能够解决现有方法难以处理的任意维度拼图问题;另一方面,它提供一了种可靠的网络初始化方法,来帮助图像分类、目标检测,尤其是3D医学图像语义分割等视觉识别任务取得更好的性能。这一项目已经开源。(https://github.com/weichen582/Unsupervised-Visual-Recognition-by-Solving-Arbitrary-Puzzles)

【语义理解】BridgeNet: A Continuity-Aware Probabilistic Network for Age Estimation

本文提出了一个有效感知连续性的桥式连接网络来解决年龄估计问题。人在成长过程中的面部变化有两个重要特质:非稳态性和连续性,本文的方法致力于同时对以上两个特质进行建模。本文所提出的BridgeNet由局部回归器和门网络两个部分组成。局部回归器将整个数据空间划分为多个相互重叠的子空间来处理由非稳态性导致的异质数据,门网络则通过使用本文所提出的桥式树结构来产生感知连续性的权重,由门网络产生的权重对局部回归器得到的回归结果进行加权得到最后估计的年龄。桥式树结构通过对树结构逐层使用桥式连接得到,这使得一层中的任何两个相邻节点都存在一个公共父节点,有效建模了连续性。本文所提出的BridgeNet可以很容易地在目前的深度学习框架中实现,并可以嵌入到任何深度卷积神经网络中进行端到端训练,其在诸多年龄估计的数据集上都取得了显著的性能提升。

【三维视觉】Deep Fitting Degree Scoring Network for Monocular 3D Object Detection本文提出了一种基于深度拟合程度评估网络的单目三维物体检测方法。该方法致力于解决现有的基于紧凑性约束的单目三维物体检测算法的不足,通过将三维候选框投影到图片上,并评估这些投影和物体之间的关系(拟合程度)来解决位置估计的问题。所提方法首先使用一种基于锚点的方法来回归出物体的尺寸和朝向信息,并构建出三维候选,然后根据相机投影关系将候选投影到图片上,并利用一个拟合程度网络来推理这些三维候选和物体之间的三维覆盖率。尽管三维空间位置和二维图片信息无关,但是通过将投影的结果画在二维图像上,可以引入附加信息,从而更好地让神经网络理解三维框和物体之间的拟合关系,并提高三维检测算法的定位精度。

【三维视觉】Elastic Boundary Projection for 3D Medical Image Segmentation

本文提出了一种与现有方法完全不同的医学图像分割算法,既能够利用二维神经网络的稳定特性,又能够直接对三维图像进行处理,从而利用更充分的信息以提升性能。本文的核心思想是将逐像素的三维物体分割转化为对于三维物体边界的定位,因而尤其适用于医学图像中具有单连通特性的目标分割。上图显示了一个完整的分割过程:在目标的内部放置一个探针点,并且在其周围生成一个曲面——这个圆球可以参数化成为一个二维结构,其中每个位置的值表示该方向上当前的半径;而在接下来的每次迭代中,系统判断这个曲面的每个终点位于三维物体的内部或者外部,并且相应地采取延长或收缩操作,直到这个曲面最终收敛也从而定义了三维物体的边界。本文提出的方法在包括肾和脾的多种器官上取得了初步的成果,并且比传统的二维和三维分割方法具有更好的稳定性。这一项目已经开源。(https://github.com/twni2016/Elastic-Boundary-Projection)

【视觉计算】Distilling Object Detectors With Fine-Grained Feature Imitation

1) 分类模型蒸馏框架        2) 检测模型蒸馏框架

模型蒸馏是一种有效的轻量化模型设计方法,当前的主流算法主要集中在物体分类任务上,即通过使小尺度的学生模型模拟复杂的教师模型输出分布以获得增强的泛化能力。然而,这类方法由于大量负样本的存在无法直接应用于检测模型蒸馏。本文提出了一种泛化的检测模型蒸馏框架,该方法通过模拟学生模型和教师模型在物体基准位置附近的精细粒度特征响应,并且忽略绝大部分背景信息干扰,在小模型上获得了稳定的泛化能力增强。本文提出的方法是一种通用的检测模型蒸馏框架,在设计的小型框架和通用检测框架上都获得了一致的性能提升。特别地,以faster-RCNN 为基准模型,本文提出的方法能够在PASCAL VOC 和MS COCO上分别取得8.0%和3.2%的检测性能提升。这一项目已经开源。(https://github.com/twangnh/)

【视觉计算】Circulant Binary Convolutional Networks: Enhancing the Performance of 1-bit DCNNs with Circulant Back Propagation计算和内存成本的快速下降推动了深度学习领域许多成功的应用。然而,在资源有限的硬件中(例如手机和嵌入式设备),深度学习的实际应用仍然具有挑战性。对于二值卷积网络,精度下降的一个主要原因来源于二值滤波器的特征提取能力的下降。为了解决这个问题,本文提出了循环滤波器和循环二值卷积,并设计一个循环反向传播算法来增强二值网络的表达能力。循环滤波器可以很容易地结合到现有的深度卷积网络中,从而获得对应的循环二值卷积网络(CBCN)。本文所提出的方法可以极大地减少二值卷积网络与其对应的全精度网络之间的性能差距。在ImageNet上的实验表明,使用ResNet18,CBCN可达到61.4%的Top-1精度;与最近的二值网络(XNOR-Net、ABC-Net、BinaryNet、BiReal-Net)相比,CBCN能将Top-1精度提高5%至18%。

【数据生成】CRAVES: Controlling Robotic Arm with a Vision-based, Economic System本文构建了一个基于视觉的系统,用于控制无传感器的低精度机械臂完成复杂任务。此系统以售价仅40美元的OWI-535机械臂为基础,仅借助一个额外的摄像头,便能通过USB控制其完成抓取骰子并放置于指定位置的任务。本系统的核心单元是一个用于实时估计机械臂的三维姿态的深度卷积神经网络,以及一个利用强化学习训练的智能体输出控制单元。为了高效地训练神经网络,并且让系统能够很容易地迁移到其他机械臂的应用环境,本文设计了一套完整的、基于虚拟数据生成和域迁移的训练流程,并且在实际测试中证实了它的稳定性。未来,只要提供机械臂三维模型,本文提出的系统就能够轻松地应用于各种工业和家用场景。这一项目已经开源。(https://craves.ai/)

【视觉多模态】Learning to Learn Image Classifiers With Visual Analogy

本文提出了一个基于视觉推理的小样本分类模型。相比于机器来讲,人类学习新概念的能力是非常强的,这是由于人类在学习过程中具备两项特殊的能力:学会学习和推理学习。本研究通过结合这两种学习方式,使得机器也可以在小样本图像分类中拥有类人学习的特性。特别地,本文提出了视觉推理图嵌入回归方法 (VAGER),能够将已学会概念的分类器参数泛化到新概念上。具体地,该算法对已学会的概念集合建立一个视觉推理图并学习出每个概念的图嵌入表征,此表征可以直接通过一个线性变换映射到分类器参数空间中,以获得每个概念的分类器参数,对于新类别亦可通过增量学习的方法学习出其图嵌入表征和分类器参数。实验表明本文提出的方法在小样本分类场景下相较于传统算法有显著的提升。

致谢:感谢我们的合作伙伴

华为诺亚方舟实验室与国内外的许多科研机构保持着长期合作关系。借此机会,诺亚特别感谢我们的合作高校及合作老师。合作高校主要包括清华大学、北京大学、中国科学院、中国科学技术大学、上海交通大学、厦门大学、杭州电子科技大学等国内院校及一些海外学校。合作老师主要有崔鹏教授、刘家瑛教授、倪冰冰教授、叶齐祥教授、俞俊教授、张娅教授,等。

附录:华为诺亚在CVPR 2019的完整论文列表

 (以下论文以作者姓氏排序)

Fabio M. Carlucci, Antonio D'Innocente, Silvia Bucci, Barbara Caputo, Tatiana Tommasi, Domain Generalization by Solving Jigsaw Puzzles, Oral 1.2A, #27; Poster 1.2, #27.

Yueqi Duan, Yu Zheng, Jiwen Lu, Jie Zhou, QiTian, Structural Relational Reasoning of Point Clouds, Poster 1.1,#84.

Tong He, Chunhua Shen, Zhi Tian, Dong Gong,Changming Sun, Youliang Yan, Knowledge Adaptation for Efficient Semantic Segmentation, Poster 1.1, #35.

Jie Hu, Rongrong Ji, Hong Liu, ShengchuanZhang, Cheng Deng, Qi Tian, Towards Visual Feature Translation,Poster1.2, #53.

Maosen Li, Siheng Chen, Xu Chen, Ya Zhang,Yanfeng Wang, Qi Tian, Actional-Structural Graph Convolutional Networks for Skeleton-Based Action Recognition, Poster 1.2, #112.

Wanhua Li, Jiwen Lu, Jianjiang Feng, Chunjing Xu, Jie Zhou, Qi Tian, BridgeNet: A Continuity-Aware Probabilistic Network for Age Estimation, Poster 1.1, #104.

Yanwei Li, Xinze Chen, Zheng Zhu, Lingxi Xie,Guan Huang, Dalong Du, Xingang Wang, Attention-Guided Unified Network for Panoptic Segmentation, Poster 2.2, #10.

Yuchao Li, Shaohui Lin, Baochang Zhang,Jianzhuang Liu, David Doermann, Yongjian Wu, Feiyue Huang, Rongrong Ji, Exploiting Kernel Sparsity and Entropy for Interpretable CNN Compression, Poster1.2, #14.

Chunlei Liu, Wenrui Ding, Xin Xia, Baochang Zhang, Jiaxin Gu, Jianzhuang Liu, Rongrong Ji, David Doermann, Circulant Binary Convolutional Networks: Enhancing the Performance of 1-Bit DCNNs With Circulant Back Propagation, Poster 1.2, #3.

Lijie Liu, Jiwen Lu, Chunjing Xu, Qi Tian, Jie Zhou, Deep Fitting Degree Scoring Network for Monocular 3D Object Detection,Poster 1.1, #95.

Caijing Miao, Lingxi Xie, Fang Wan,Chi Su, Hongye Liu, Jianbin Jiao, Qixiang Ye, SIXray: A Large-Scale Security Inspection X-Ray Benchmark for Prohibited Item Discovery in Overlapping Images,Poster 1.1, #214. 

Tianwei Ni, Lingxi Xie, HuangjieZheng, Elliot K. Fishman, Alan L. Yuille, Elastic Boundary Projection for 3D Medical Image Segmentation, Poster 1.1, #213.

Junting Pan, Chengyu Wang, Xu Jia, Jing Shao,Lu Sheng, Junjie Yan, Xiaogang Wang, Video Generation From Single Semantic Label Map, Poster 1.2, #144.

Zhi Tian, Tong He, Chunhua Shen, Youliang Yan, Decoders Matter for Semantic Segmentation: Data-Dependent Decoding Enables Flexible Feature Aggregation, Poster 1.2, #65.

Tao Wang, Li Yuan, Xiaopeng Zhang, Jiashi Feng,Distilling Object Detectors With Fine-Grained Feature Imitation, Poster2.1, #38.

Tao Wang, Xiaopeng Zhang, Li Yuan, Jiashi Feng,Few-Shot Adaptive Faster R-CNN, Poster 2.2, #43.

Ziwei Wang, Jiwen Lu, Chenxin Tao, Jie Zhou, Qi Tian, Learning Channel-Wise Interactions for Binary Convolutional Neural Networks, Poster 1.1, #34.

Chen Wei, Lingxi Xie, Xutong Ren,Yingda Xia, Chi Su, Jiaying Liu, Qi Tian, Alan L. Yuille, Iterative Reorganization With Weak Spatial Constraints: Solving Arbitrary Jigsaw Puzzles for Unsupervised Representation Learning, Poster 1.1, #193.

Hang Xu, Chenhan Jiang, Xiaodan Liang, Zhenguo Li, Spatial-Aware Graph Relation Network for Large-Scale Object Detection,Poster 3.1, #36.

Hang Xu, Chenhan Jiang, Xiaodan Liang, Liang Lin, Zhenguo Li, Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection, Oral 2.2A, #27; Poster 3.1, #27.

Chenglin Yang, Lingxi Xie, Chi Su,Alan L. Yuille, Snapshot Distillation: Teacher-Student Optimization in One Generation, Poster 1.2, #38.

Jiancheng Yang, Qiang Zhang, Bingbing Ni,Linguo Li, Jinxian Liu, Mengdie Zhou, Qi Tian, Modeling Point Clouds With Self-Attention and Gumbel Subset Sampling, Poster 1.2, #85.

Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, Qi Tian, Deep Modular Co-Attention Networks for Visual Question Answering, Poster2.1, #205.

Xiaohui Zeng, Chenxi Liu, Yu-SiangWang, Weichao Qiu, Lingxi Xie, Yu-Wing Tai, Chi-Keung Tang, Alan L. Yuille, Adversarial Attacks beyond the Image Space, Oral 2.1A, #4; Poster 2.1, #4.

Chenglong Zhao, Bingbing Ni, Jian Zhang, QiweiZhao, Wenjun Zhang, Qi Tian, Variational Convolutional Neural Network Pruning, Poster 1.2, #12.

Linjun Zhou, Peng Cui, Shiqiang Yang, Wenwu Zhu, Qi Tian, Learning to Learn Image Classifiers With Visual Analogy,  Poster 3.2, #53.

Yiming Zuo, Weichao Qiu, Lingxi Xie, Fangwei Zhong, Yizhou Wang, Alan L. Yuille, CRAVES: Controlling Robotic Arm with a Vision-Based Economic System, Poster 1.2, #211.

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐