【论文笔记】Spatial Transformer Networks

卷积神经网络（CNN）已经被证明能够训练一个能力强大的分类模型，但与传统的模式识别方法类似，它也会受到数据在空间上多样性的影响。这篇Paper提出了一种叫做空间变换网络（Spatial Transform Networks， STN）,该网络不需要关键点的标定，能够根据分类或者其它任务自适应地将数据进行空间变换和对齐（包括平移、缩放、旋转以及其它几何变换等）。

有来有去-CV

33469人浏览 · 2016-07-02 12:46:04

有来有去-CV · 2016-07-02 12:46:04 发布

参考文献：**Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. 2015: 2017-2025.

摘要

卷积神经网络（CNN）已经被证明能够训练一个能力强大的分类模型，但与传统的模式识别方法类似，它也会受到数据在空间上多样性的影响。这篇Paper提出了一种叫做空间变换网络（Spatial Transform Networks， STN）,该网络不需要关键点的标定，能够根据分类或者其它任务自适应地将数据进行空间变换和对齐（包括平移、缩放、旋转以及其它几何变换等）。在输入数据在空间差异较大的情况下，这个网络可以加在现有的卷积网络中，提高分类的准确性。

——————
由于我之前的工作部分涉及到人脸对齐，所以看到这篇Paper异常激动。总觉得能用它做点什么。

算法介绍

1. 算法总流程

STN 主要可以分为三个部分：1）localisation network. 2) grid generator. 3) sampler. (中文我翻译不准确，大家意会下)。localisation network用来计算空间变换的参数 $\theta$ ，grid generator则是得到input map $U \in R^{H\times W\times C}$ 到 output map 各位置的 $V \in R^{H'\times W'\times C}$ 对应关系 $\mathcal T_\theta$ ， sampler根据input map $U$ 和对应关系 $\mathcal T_\theta$ ，生成最终的output map. 流程图如图所示：

这里写图片描述

1.1 Localisation Network

它的作用就是通过一个子网络（全连接或者卷积网，再加一个回归层），生成空间变换的参数 $\theta$ 。 $\theta$ 的形式可以多样，如需实现2D仿射变换， $\theta$ 就是一个6维（2x3）向量的输出。

1.2 Parameterised Sampling Grid

假设 $U$ (不局限于输入图片，也可以是其它层输出的feature map)每个像素的坐标为 $(x_i^s, y_i^s)$ ， $V$ 的每个像素坐标为 $(x_i^t, y_i^t)$ , 空间变换函数 $\mathcal T_\theta$ 为仿射变换函数，那么 $(x_i^s, y_i^s)$ 和 $(x_i^t, y_i^t)$ 的对应关系可以写为：

(x s i y s i) = T θ (G i) = A θ (x t i y t i)

$\begin{pmatrix} x_i^s \\ y_i^s \end{pmatrix} =\mathcal T_\theta(G_i)=\mathbf{A}_\theta \begin{pmatrix} x_i^t \\ y_i^t \end{pmatrix}$

当然， $A_\theta$ 也可以有其它形式，如3D仿射变换，透射变换等。

1.3 Differentiable Image Sampling

在计算得到 $\mathcal T_\theta$ 后，就可以由以下公式 $U$ 得到 $V$ 了（省略推导公式若干，只放上最终形式）：

V c i = \sum n H \sum m W U c n m max (0, 1 - | x s i - m) | max (0, 1 - | y s i - n |)

$V_i^c=\sum_n^{H}{\sum_m^{W}{ U^c_{nm} \max(0, 1-|x_i^s-m)|\max(0, 1-|y_i^s-n|)}}$

在求得 $V$ 后，当然少不了上述公式对 $U$ , $x^s$ , $y^s$ 的求导，以便根据loss进行网络的后向传播：

\partial V c i \partial U c n m = \sum n H \sum m W max (0, 1 - | x s i - m) | max (0, 1 - | y s i - n |)

$\frac{\partial{V_i^c}}{\partial{U^c_{nm}}}=\sum_n^{H}{\sum_m^{W}{ \max(0, 1-|x_i^s-m)|\max(0, 1-|y_i^s-n|)}}$

\partial V c i \partial x s i = \sum n H \sum m W U c n m max (0, 1 - | x s i - m) | max (0, 1 - | y s i - n |) ⎧ ⎩ ⎨ ⎪ ⎪ 0, 1, - 1 if | m - x s i | \geq 1 if m \geq x s i if m < x s i

$\frac{\partial{V_i^c}}{\partial{x^s_i}}=\sum_n^{H}{\sum_m^{W}{ U^c_{nm} \max(0, 1-|x_i^s-m)|\max(0, 1-|y_i^s-n|)}} \begin{cases} 0, & \text{if $|m-x_i^s|\ge1$} \\ 1, & \text{if $m\ge{x_i^s}$}\\ -1 & \text{if $m\lt{x_i^s}$}\\ \end{cases}$

$\frac{\partial{V_i^c}}{\partial{y^s_i}}$ 与 $\frac{\partial{V_i^c}}{\partial{x^s_i}}$ 类似。对 $\theta$ 的求导为：

\partial V c i \partial θ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ \partial V c i \partial x s i \cdot \partial x s i \partial θ \partial V c i \partial y s i \cdot \partial y s i \partial θ ⎞ ⎠ ⎟ ⎟ ⎟ ⎟

$\frac{\partial{V_i^c}}{\partial{\theta}}= \begin{pmatrix} \frac{\partial{V_i^c}}{\partial{x^s_i}} \cdot \frac{\partial{x^s_i}}{\partial{\theta}} \\ \frac{\partial{V_i^c}}{\partial{y^s_i}} \cdot \frac{\partial{y^s_i}}{\partial{\theta}} \end{pmatrix}$

而 $\frac{\partial{x^s_i}}{\partial{\theta}}$ , $\frac{\partial{y^s_i}}{\partial{\theta}}$ 根据具体的变换函数便可得到。

通过以上3个部分的结合，便形成了完整的 STN。

2. 算法分析

STN 计算较快，几乎没有增加原有网络模型的训练时间。由于它能够在训练过程中，学习到与任务相关的空间变换参数，因此能够进一步最小化网络的损失函数。STN 不只可以用在输入的图像层，也可以加入卷积层或者其它层之后。

3. 实验结果

这篇文章分别在手写文字识别、街景数字识别、鸟类分类以及共定位等方面做了实验，这里我只列出比较有代表性的手写文字实验部分。

实验数据为MNIST，分别在经过不同处理（包括旋转（R）、旋转、缩放、平移（RTS），透射变换(P）)，弹性变形（E））的数据上进行字符识别的实验。Baseline分别使用了两种网络结构FCN , CNN, 加入了 STN 的网络为 ST-FCN, ST-CNN。其中，STN 采用了以下几种变换方法：仿射变换（Aff )、透射变换（Proj )、以及薄板样条变换（TPS )。下表列出了 STN 与 baseline 在MNIST上的比较结果，表中数据为识别错误率：
这里写图片描述

可以看出，对不同的形式的数据，加入了STN 的网络均优于 baseline 的结果。以下为 STN 对数字图像进行变换后的结果，其中a列为原始数据，b列为变换参数的示意图，c列为最终变换后的结果：
这里写图片描述

总结

STN 能够在没有标注关键点的情况下，根据任务自己学习图片或特征的空间变换参数，将输入图片或者学习的特征在空间上进行对齐，从而减少物体由于空间中的旋转、平移、尺度、扭曲等几何变换对分类、定位等任务的影响。加入到已有的CNN或者FCN网络，能够提升网络的学习能力。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生