计算机视觉-深度学习与传统神经网络的区别
与传统神经网络的区别区别神经网络深度学习网络架构3层以内可达上千层层间连接通常全连接形式多样:共享权值、跨层的反馈目标函数MSE(mean square error)CE(cross entropy)激活函数SigmoidReLU梯度下降方法GDAdam避免过适应凭经验Dropout目标函数Softmax层...
·
与传统神经网络的区别
| 区别 | 神经网络 | 深度学习 |
|---|---|---|
| 网络架构 | 3层以内 | 可达上千层 |
| 层间连接 | 通常全连接 | 形式多样:共享权值、跨层的反馈 |
| 目标函数 | MSE(mean square error) | CE(cross entropy) |
| 激活函数 | Sigmoid | ReLU |
| 梯度下降方法 | GD | Adam |
| 避免过适应 | 凭经验 | Dropout |
目标函数


Softmax层
Softmax层的作用是突出 “最大值”并转换成概率的形式
激活函数
梯度消失的直观解释

ReLU


梯度算法
SGD 随机梯度下降
- 学习率不易确定,太小过慢,太大震荡
- 每个参数的学习率固定,希望对出现频率低的特征进行大一点的更新
- 学习过程容易陷入马鞍面,此区域所有方向的梯度值几乎为0
后面陆续有 Momentum、Nesterov Momentum、Adagrad、RMSprop、Adam(adaptive moment estimation,自适应矩估计)
梯度算法比较





避免过适应
产生原因
权重参数太多,而样本量不足
避免
- 早期停止训练
- 权重衰减
- Dropout
早期停止训练

权重衰减

Dropout


CNN 初步介绍
更多推荐



所有评论(0)