与传统神经网络的区别

区别 神经网络 深度学习
网络架构 3层以内 可达上千层
层间连接 通常全连接 形式多样:共享权值、跨层的反馈
目标函数 MSE(mean square error) CE(cross entropy)
激活函数 Sigmoid ReLU
梯度下降方法 GD Adam
避免过适应 凭经验 Dropout

目标函数

在这里插入图片描述
在这里插入图片描述

Softmax层

Softmax层的作用是突出 “最大值”并转换成概率的形式
在这里插入图片描述

激活函数

梯度消失的直观解释

在这里插入图片描述

ReLU

在这里插入图片描述
在这里插入图片描述

梯度算法

SGD 随机梯度下降
  • 学习率不易确定,太小过慢,太大震荡
  • 每个参数的学习率固定,希望对出现频率低的特征进行大一点的更新
  • 学习过程容易陷入马鞍面,此区域所有方向的梯度值几乎为0

后面陆续有 Momentum、Nesterov Momentum、Adagrad、RMSprop、Adam(adaptive moment estimation,自适应矩估计)
在这里插入图片描述

梯度算法比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

避免过适应

产生原因

权重参数太多,而样本量不足

避免
  • 早期停止训练
  • 权重衰减
  • Dropout
早期停止训练

在这里插入图片描述

权重衰减

在这里插入图片描述

Dropout

在这里插入图片描述
在这里插入图片描述

CNN 初步介绍

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐