第十四周学习笔记
文章目录第十四周学习笔记《深度学习》第十二章 应用1.大规模深度学习2.计算机视觉3.语音识别4.自然语言处理5.其他应用第十三章 线性因子模型1.概率PCA和因子分析第十四周学习笔记《深度学习》第十二章 应用本章介绍了深度学习在计算机视觉、语音识别、自然语言处理以及其他商业领域中的应用1.大规模深度学习深度学习的基本思想:联结主义——尽管机器学习模型中单个生物性神经元或者说是单个特征...
文章目录
第十四周学习笔记
《深度学习》
第十二章 应用
本章介绍了深度学习在计算机视觉、语音识别、自然语言处理以及其他商业领域中的应用
1.大规模深度学习
深度学习的基本思想:联结主义——尽管机器学习模型中单个生物性神经元或者说是单个特征是不智能的,但是大量的神经元或者特征作用在一起往往能够表现出智能。
深度学习的实现:通过特殊设计的数值运算,我们可以获得巨大的回报(优化数据结构避免高速缓存缺失,使用向量指令)。
GPU:相比CPU拥有高内存带宽,高度并行的特点,但有更慢的时钟速度以及更弱的处理分支运算的能力。而神经网络的训练通常不涉及大量的分支运算与复杂的控制指令,且各个层的神经元独立于同层的其他神经元进行处理,所以更适合GPU训练。
数据并行:每个输入的样本在单独的机器上运行。
模型并行:多个机器共同运行一个数据点,每个机器负责模型的一个部分。
异步随机梯度下降:各个核在无锁的状态下共享并更新参数。
动态结构:动态决定运行神经网络系统的哪个部分。
硬件实现:8位和16位之间的精度足以满足使用或训练基于反向传播的深度网络的要求,这一结论可以简化硬件的结构,增加计算效率
2.计算机视觉
复现人类视觉能力->创造全新的视觉能力
预处理:
- 图像标准化
- 数据集增强
- 对比度归一化
3.语音识别
将一段包括了自然语言发音的声学信号投影到对应说话人的序列上
到2012年,最先进的语音识别系统是马尔可夫模型和高斯混合模型。
语音识别是神经网络所成功应用的第一个领域
随着数据的不断增长,基于GMM-HMM的方法已经停滞不前,这使得我们转向深度学习的方法。
4.自然语言处理
让计算机能够使用人类语言。
- n-gram,统计语言模型
- 神经语言模型,word embedding
5.其他应用
- 推荐系统——协同过滤
- 知识表示、推理和回答,捕获实体之间的关系
第十三章 线性因子模型
线性因子模型,首先选择解释因子
h ∼ p ( h ) h\sim p(h) h∼p(h)
假设
x = W h + b + n o i s e x=Wh+b+noise x=Wh+b+noise
PCA、因子分析、ICA,都是假设了不同的噪声以及先验 p ( h ) p(h) p(h)
1.概率PCA和因子分析
- 因子分析,潜变量的先验是一个方差为单位矩阵的高斯分布,并假设给定h的条件下观察值
x
i
x_i
xi是条件独立的
h ∼ N ( h ; 0 , I ) x ∼ N ( x ; b , W W T + ψ ) h\sim N(h;0,I)\\ x\sim N(x;b, WW^T+\psi) h∼N(h;0,I)x∼N(x;b,WWT+ψ) - 概率PCA中,条件方差相等
x ∼ N ( x ; b , W W T + σ 2 I ) x\sim N(x;b,WW^T+\sigma^2I) x∼N(x;b,WWT+σ2I)
2.独立成分分析
一种建模线性因子的方法,旨在将观察到的信号分离成许多潜在信号,这些潜在信号通过缩放和叠加可以恢复成观察数据。且这些信号是完全独立的,而不仅仅是彼此不相关。
应用
- 分离脑电波
- 分离说话人
3.慢特征分析
慢特征分析是使用来自时间信号的信息学习不变特征的线性因子模型。
基本思想慢性原则:与场景中起描述作用的单个量度相比,场景的重要特性通常变化得非常缓慢
4.稀疏编码
稀疏编码是一个线性因子模型,目标是推断隐变量 h h h。
5.PCA的流形解释
PCA可以理解为将薄饼与更高维空间中的线性流形对准。
W是正交矩阵的情况下,最小化重构误差等价于最大化隐变量方差。
第十四章 自编码器
自编码器是神经网络的一种,经过训练后能尝试将输入复制到输出,由编码器
h
=
f
(
x
)
h=f(x)
h=f(x),和解码器
r
=
g
(
h
)
r=g(h)
r=g(h)组成。
我们不期望自编码器的输入到输出完全相等,通常我们会加上一些约束,强制模型考虑输入的数据有哪些部分要被优先复制。
1.欠完备自编码器
当
x
x
x维度比
x
x
x小时,编码器称为欠完备的。
当解码器是线性的且使用均方误差,欠完备自编码器会学习出与PCA相同的生成子空间。
2.正则自编码器
如果自编码器容量过大,隐藏编码维数与输入相等,或大于输入的过完备情况下,编码器无法学习到有用的信息。
正则自编码器使用损失函数鼓励模型学习其他特性,而不会遇到上述问题。
- 稀疏自编码器
- 去噪自编码器
- 惩罚导数作为正则
3.表示能力、层的大小和深度
深度在自编码器上的提升也是明显的,因为深度能指数地减少学习一些函数所需的训练数据量。
4.随机编码器和解码器
5.去噪自编码器详解
去噪自编码器(Denoising autoencoder,DAE)是一类接受损坏数据作为输入,并训练来预测原始未被破坏数据作为输出的自编码器。
6.使用自编码器学习流形
利用数据集中在一个低维流形或者一小组这样的流形的思想。
自编码器的训练过程涉及两种推动力的折衷:
- 重构
- 满足正则项
7.收缩自编码器
正则化使得编码器的导数尽量小
8.预测稀疏分解
稀疏编码器和参数化编码器的混合模型,参数化编码器被训练为能预测迭代推断的输出。
9.自编码器的应用
- 降维
- 信息检索
第十五章 表示学习
数据的表示影响了我们处理他们的方式和效率,比如,人类能轻松处理阿拉伯数字的四则运算,但无法直接处理罗马数字的四则运算,这是因为相比之下,阿拉伯数字是更好的表示(对人类来说)。
评判表示的好坏往往在于好的表示使得后续的任务更加容易。
可以将前馈网络理解为表示学习,神经网络将输入学习成好的表示,以给最后一层神经网络更加容易地解决分类问题。
人类在少的标注样本中的学习能力的两个解释:
- 大脑可能使用了大量的分类器或贝叶斯推断技术
- 大脑能够利用无监督学习和半监督学习
1.贪心逐层无监督预训练
贪心逐层无监督预训练依赖于单层表示学习算法,可以规避监督问题中深度神经网络难以联合训练多层的问题。其中
- 贪心:表示它是一个贪心算法
- 逐层的:每次只处理一层网络
- 无监督:使用无监督方法训练
- 预训练:它只是在联合训练算法精调所有层之前的第一步
平均而言,贪心逐层无监督预训练是有负面影响的,但在有些问题上会有显著帮助
无监督预训练的两个想法:
- 利用了深度神经网络对初始参数的选择,可以对模型有着显著的正则化效果的想法
- 利用了学习输入分布有助于学习从输入到输出的映射。对于无监督任务有用的一些特征对于监督学习任务也可能是有用的。
无监督预训练表现原因的想法:
- 可以期望无监督预训练在初始表示差的情况下更有效,比如词向量。然而在处理图像时不太有用,可能因为图像已经在一个很丰富的向量空间中。
- 可以期望无监督预训练在标注样本数量非常小时很有帮助。因为利用了未标注的样本。
- 无监督学习不同于权重衰减的正则化项,它不偏向于学习一个简单的函数,而是学习对无监督学习任务有用的特征函数。
- 无监督预训练可以使得参数的方差变小,最终函数参数收敛到一个更小的参数空间(2010)。
无监督预训练的缺点:
- 训练分为两个阶段,超参数更难调
- 在小数据集上,不如贝叶斯方法
- 在大数据集上,不如带有Dropout的深度学习方法
2.迁移学习和领域自适应
迁移学习中,学习器执行多个不同的任务,这些任务往往共享一些低级概念
3.半监督解释因果关系
理想的特征对应到数据的潜在成因
4.分布式表示
5.得益于深度的指数增益
6.提供发现潜在原因的线索
一个理想的表示能够区分生成数据变化的潜在因果因子,特别是那些与我们的应用相关的因素。
第十六章 深度学习中的结构化概率模型
结构化概率模型用图来描述概率分布中随机变量之间的相互作用
1.非结构化建模的挑战
通过表格记录离散随机变量存在的问题:
- 内存
- 统计高效性
- 运行时间:采样的开销和推断的开销
结构化概率模型为随机变量之间的直接作用提供了一个正式的建模框架,大大减少了模型的参数个数
2.使用图描述模型结构
结构化概率模型中,使用节点来表示随机变量,边来代表相互作用
有向模型(directed graphical model)
有向图模型是一种结构化概率模型,又称信念网络(belief network)或贝叶斯网络(Bayesian network)
无向模型(undirected model)
无向模型,也称马尔可夫随机场(Markov random field)或者马尔可夫网络(Markov network)
3.从图模型中采样
在有向图上通过拓扑排序进行采样,对于无向图,使用Gibbs采样
4.结构化建模的优势
- 显著降低表示概率分布、学习和推断的成本
- 加速有向图中的采样
5.学习依赖关系
捕获可见变量的分布
6.推断和近似推断
求隐变量在给定观察值时的条件概率
7.结构化概率模型的深度学习方法
受限玻尔兹曼机(Restricted Boltzmann Machine)
第十七章 蒙特卡罗方法
随机方法粗略的分为两类
- Las Vegas算法
- 蒙特卡罗方法
1.采样和蒙特卡罗方法
当无法精确计算和或积分时,通常可以使用蒙特卡罗采样来近似它,采样的理论依据是大数定理
2.重要采样
根据
p
(
x
)
f
(
x
)
=
q
(
x
)
p
(
x
)
f
(
x
)
q
(
x
)
p(x)f(x)=q(x)\dfrac{p(x)f(x)}{q(x)}
p(x)f(x)=q(x)q(x)p(x)f(x)
在新分布下进行采样,此时期望与q无关,而方差对q的选择十分敏感
3.马儿可夫链蒙特卡罗方法
马儿可夫链蒙特卡罗方法(Markov Chain Monte Carlo, MCMC)
4.Gibbs采样
Gibbs采样构造一个中 p m o d e l p_{model} pmodel中采样的马尔可夫链
5.不同的峰值之间的混合挑战
Node-based autograd
代码在这
基于节点的自动求导模块,在上周的基础上实现了
- softmax
- 单隐层前馈网络
更多推荐
所有评论(0)