机器学习笔记（三）——正则化最小二乘法

一. 模型的泛化与过拟合在上一节中，我们的预测函数为：f(x;ω)=ωTxf(x;\omega) = \omega^Tx其中，x=[x1],ω=[ω1ω0]x=\begin{bmatrix}x\\1\end{bmatrix},\omega=\begin{bmatrix}\omega_1\\\omega_0\end{bmatrix}上述称为线性模型，我们也可以将xx扩

_Kevin_Duan_

11497人浏览 · 2016-03-06 10:57:29

_Kevin_Duan_ · 2016-03-06 10:57:29 发布

一. 模型的泛化与过拟合

在上一节中，我们的预测函数为：

f (x; ω) = ω T x

$f(x;\omega) = \omega^Tx$
其中，

x = [x 1], ω = [ω 1 ω 0]

$x=\begin{bmatrix} x\\ 1 \end{bmatrix}, \omega=\begin{bmatrix} \omega_1\\ \omega_0 \end{bmatrix}$
上述称为线性模型，我们也可以将

x $x$ 扩展为：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x n ⋮ x 2 x 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, ω = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ω n ⋮ ω 2 ω 1 ω 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x=\begin{bmatrix} x^n\\ \vdots\\ x^2\\ x\\ 1 \end{bmatrix}, \omega=\begin{bmatrix} \omega_n\\ \vdots\\ \omega_2\\ \omega_1\\ \omega_0 \end{bmatrix}$
那么预测函数

f(x;w) $f(x;w)$ 就变为一个非线性函数。预测函数的次数越高，越能准确地拟合训练数据。在某些情况下，高次预测函数会拟合大部分或全部训练数据，这时，我们就说这个模型过拟合。因为这种过度拟合训练数据的模型对未知数据的预测就不是那么准确了，它对训练数据外的其它数据是相当敏感的，也就是说它不够泛化。所以我们需要一个最好的模型，也就是说我们需要的模型误差要最小，而且还有一定的泛化能力。

二. 正则化最小二乘法

要避免模型过拟合，我们可以选择部分数据进行模型的训练，也可以利用正则化方法。一般来讲，正则化，有L1正则和L2正则，它们都是基于 $L_p$ 范数的:

L p = (\sum i n | x i | p) 1 p

$L_p=(\sum_i^n\vert x_i\vert ^p)^\frac{1}{p}$
这里我们选择模型的复杂度为L2正则：

∑niω2i $\sum_i^n\omega_i^2$ ,写为向量形式为：

ωTω。 $\omega^T\omega。$ 关于正则化的详细内容，可以参考：
http://blog.csdn.net/heyongluoyao8/article/details/49429629

那么我们新的损失函数可以写为：

L' = L + λ ω T ω = 1 N (ω T X T X ω - 2 ω T X T y + y T y) + λ ω T ω

$\begin{align} L' &= L+\boldsymbol{\lambda\omega^T\omega}\\ &=\frac{1}{N}(\boldsymbol{\omega^TX^TX\omega-2\omega^TX^Ty+y^Ty})+\lambda\boldsymbol{\omega^T\omega} \end{align}$
同样的对上式求偏导数：

\partial L \partial ω = 1 N (2 X T X ω - 2 X T y) + 2 λ ω = 0 \Rightarrow (X T X + N λ I) ω = X T y \Rightarrow ω = (X T X + N λ I) - 1 X T y

$\frac{\partial{L}}{\partial{\boldsymbol{\omega}}}=\frac{1}{N}(2\boldsymbol{X^TX\omega-2X^Ty})+2\lambda\boldsymbol{\omega}=0\\ \Rightarrow\\ (\boldsymbol{X^TX}+N\lambda\boldsymbol{I})\omega=\boldsymbol{X^Ty}\\ \Rightarrow\\ \boldsymbol{\omega}=(\boldsymbol{X^TX}+N\lambda\boldsymbol{I})^{-1}\boldsymbol{X^Ty}$
选择

λ $\lambda$ 的值就是选择多项式拟合函数时，折中过拟合/泛化的过程。值太小，过拟合；值太大，不利于数据的逼近。至于

λ $\lambda$ 的选择，可以采用交叉验证获得最好预测性能的

λ $\lambda$ 。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生