大数据集下的学习方法

大数据下的机器学习现在机器学习算法，其实就是大量数据集下对数据集进行拟合。当数据量很大的时候，算法的效率必然会降低，如何处理大量的数据，是现在要考虑的问题。随机梯度下降回顾线性回归的梯度下降。hθ(x)=∑j=0nθjxj代价函数Cost(θ,(x(i),y(i)))=12(hθ(x(i))−y(i))2Jtrain(θ)=12m∑i−1m(hθ(x(i))−y(i))2=1m∑i−1mCost(

永远鲜红の幼月

334人浏览 · 2021-07-06 13:31:10

永远鲜红の幼月 · 2021-07-06 13:31:10 发布

大数据下的机器学习

现在机器学习算法，其实就是大量数据集下对数据集进行拟合。

当数据量很大的时候，算法的效率必然会降低，如何处理大量的数据，是现在要考虑的问题。

随机梯度下降

回顾线性回归的梯度下降。
$\begin{aligned} & h_\theta(x)=\sum_{j=0}^n\theta_jx_j\\ & 代价函数Cost(\theta,(x^{(i)},y^{(i)}))=\frac{1}{2}(h_\theta(x^{(i)})-y^{(i)})^2\\ & J_{train}(\theta)=\frac{1}{2m}\sum_{i-1}^m(h_\theta(x^{(i)})-y^{(i)})^2=\frac{1}{m}\sum_{i-1}^mCost(\theta,(x^{(i)},y^{(i)}))\\ & 迭代运行梯度下降\\ & \qquad \theta_j:=\theta_j-\alpha \frac{\partial J_{train}(\theta)}{\partial\theta_j}\qquad \qquad对于每个j=0,1,...,n对于\theta\in\mathbb{R}^n\\ & \qquad\quad :=\theta_j-\alpha \frac{1}{m}\sum_{i=1}^m\frac{\partial Cost(\theta,(x^{(i)},y^{(i)}))}{\partial\theta_j}\\ & \qquad\quad :=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\\ & \qquad这里的m就是我们的训练集样本数量. \\ \end{aligned}$
当m非常大的时候，例如千万，上亿等。可能就需要不少的时间，而且该算法还需要多次迭代，时间消耗不容小视。

接下来，我们不每次遍历所有的训练集来求θ，而是只从训练集中拿出一个(x,y)来进行单独的求θ。

随机梯度下降：
$\begin{aligned} 即:\ & 我们不区分(x^{(i)},y^{(i)})了，统一使用(x,y)\\ & 因为我们每次只用一个单独的样本进行训练，所以我们的梯度下降式子变为：\\ & \theta_j:=\theta_j-\alpha(h_\theta(x)-y)x_j \end{aligned}$
此时，学习算法可能不会收敛到全局最优点，而是在最优点附近一个范围内游走，这是因为我们使用的是单独的样本。

如图：

在这里插入图片描述

经历曲折的路径，最后在一个范围内往复。

不过确定一个范围，也是一个不错的收获。

Mini-batch梯度下降

经典梯度下降，需要遍历所有训练集，时间成本太大。
随机梯度下降，只需要一次计算一个样本即可，时间花费少，但是最后精度不高。

我们使用折中的方法，将经典梯度下降和随机梯度下降结合起来。每次读入b个样本，即不多也不少，可以使时间变少，也可以使精度变高。

即
$\begin{aligned} & 比如，我们每次使用10个样本进行总样本数10000的梯度下降训练：b=10,m=10000\\ & for(b=1,11,21,...,9991)\\ & \qquad\theta_j:=\theta_j-\alpha\frac{1}{b}\sum_{i=1}^b(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}\qquad \qquad对于每个j=0,1,...,n对于\theta\in\mathbb{R}^n\\ & \qquad b:=b+10\\ \end{aligned}$