机器学习笔记（二）——多变量最小二乘法

机器学习笔记（二）——多变量最小二乘法在上一节中，我们介绍了最简单的学习算法——最小二乘法去预测奥运会男子100米时间。但是可以发现，它的自变量只有一个：年份。通常，我们所面对的数据集往往不是单个特征，而是有成千上万个特征组成。那么我们就引入特征的向量来表示，这里涉及到矩阵的乘法，向量，矩阵求导等一些线性代数的知识。一. 将拟合函数由单变量改写为多变量设我们的拟合函数f(xi;ω)=ωTxif

_Kevin_Duan_

15301人浏览 · 2016-02-28 12:17:32

_Kevin_Duan_ · 2016-02-28 12:17:32 发布

在上一节中，我们介绍了最简单的学习算法——最小二乘法去预测奥运会男子100米时间。但是可以发现，它的自变量只有一个：年份。通常，我们所面对的数据集往往不是单个特征，而是有成千上万个特征组成。那么我们就引入特征的向量来表示，这里涉及到矩阵的乘法，向量，矩阵求导等一些线性代数的知识。

一. 将拟合函数由单变量改写为多变量

设我们的拟合函数

f (x i; ω) = ω T x i

$f(\boldsymbol{x_i}; \boldsymbol{\omega}) = \boldsymbol{\omega}^T\boldsymbol{x_i}$

其中， $\boldsymbol{w}$ 表示拟合函数的参数， $\boldsymbol{x_i}$ 表示数据集中第i条数据。

对于上节中的 $f(x;a,b) = ax + b$ ,我们可以令

ω = [a b], x i = [x 1]

$\boldsymbol{\omega} = \begin{bmatrix} a\\b \end{bmatrix}, \boldsymbol{x_i} = \begin{bmatrix} x\\1 \end{bmatrix}$

则这两个函数等价。为了方便推导，我们在损失函数前边加上 $\frac{1}{N}$ ,由于N是定值，它代表数据集的记录数。那么，损失函数可以写为：

L = 1 N \sum i = 1 N (y i - ω T x i) 2 = 1 N (y - X ω) T (y - X ω) （ 1 ）

$L=\frac{1}{N}\sum_{i=1}^{N}(y_i-\boldsymbol{\omega^Tx_i})^2=\frac{1}{N}(\boldsymbol{y}-\boldsymbol{X\omega})^T(\boldsymbol{y}-\boldsymbol{X\omega}) （1）$
那么上式的推导过程也很简单，令

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ x T 1 x T 2 ⋮ x T n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 11 ⋮ 1 x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\boldsymbol{X}=\begin{bmatrix} \boldsymbol{x_1^T} \\ \boldsymbol{x_2^T} \\ \vdots\\ \boldsymbol{x_n^T} \end{bmatrix} =\begin{bmatrix} 1 & x_1\\ 1 & x_2\\ \vdots & \vdots\\ 1 & x_n \end{bmatrix}$

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥, ω = [ω 0 ω 1]

$\boldsymbol{y}=\begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{bmatrix}, \boldsymbol{\omega}=\begin{bmatrix} \omega_0\\ \omega_1 \end{bmatrix}$

带入（1）式即可得证，此处略过。

二.多特征下求解参数 $\boldsymbol{\omega}$

L = 1 N (y - X ω) T (y - X ω) = 1 N (y T - ω T X T) (y - X ω) = 1 N (y T y - y T X ω - ω T X T y + ω T X T X ω) = 1 N (ω T X T X ω - 2 ω T X T y + y T y) (2)

$\begin{align} L&=\frac{1}{N}(\boldsymbol{y}-\boldsymbol{X\omega})^T(\boldsymbol{y}-\boldsymbol{X\omega}) \\ &=\frac{1}{N}(\boldsymbol{y^T-\omega^TX^T})(\boldsymbol{y}-\boldsymbol{X\omega})\\ &=\frac{1}{N}(\boldsymbol{y^Ty-y^TX\omega-\omega^TX^Ty+\omega^TX^TX\omega})\\ &=\frac{1}{N}(\boldsymbol{\omega^TX^TX\omega-2\omega^TX^Ty+y^Ty})(2) \end{align}$
我们的目标是让损失函数最小，即求（2）的最小值，我们对

ω $\boldsymbol{\omega}$ 求偏导数，令其等于0，就可以求出

L $L$ 取得极小值时参数

ω $\boldsymbol{\omega}$ 的值。

\partial L \partial ω = 1 N (2 X T X ω - 2 X T y) = 0 (3) \Rightarrow X T X ω = X T y \Rightarrow ω = (X T X) - 1 X T y

$\frac{\partial{L}}{\partial{\boldsymbol{\omega}}}=\frac{1}{N}(2\boldsymbol{X^TX\omega-2X^Ty})=0(3)\\ \Rightarrow\\ \boldsymbol{X^TX\omega=X^Ty}\\ \Rightarrow\\ \boldsymbol{\omega=(X^TX)^{-1}X^Ty}$
至此，我们已经求出了参数值，接下来就可以预测了。

至于(3)的求导，注意以下求导公式即可：

$f(\boldsymbol{w})$	$\frac{\partial{f}}{\partial{\boldsymbol{w}}}$
$\boldsymbol{w^Tx}$	$\boldsymbol{x}$
$\boldsymbol{x^Tw}$	$\boldsymbol{x}$
$\boldsymbol{w^Tw}$	$\boldsymbol{2w}$
$\boldsymbol{w^TCw}$	$\boldsymbol{2Cw}$

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生