一、基础数学

1.1 泰勒公式

我们首先简单地回顾一下泰勒公式：

{{f{ \left( {a+h} \right) }=f{ \left( {a} \right) }+\frac{{f\mathop{{}}\nolimits^{{ \left( 1 \right) }}{ \left( {a} \right) }}}{{1!}}{ \left( {h} \right) }+\frac{{f\mathop{{}}\nolimits^{{ \left( 2 \right) }}{ \left( {a} \right) }}}{{2!}}{ \left( {h} \right) }+}…+\frac{{f\mathop{{}}\nolimits^{{ \left( n \right) }}{ \left( {a} \right) }}}{{n!}}{ \left( {h} \right) }+R\mathop{{}}\nolimits_{{n}}{ \left( {x} \right) }}

使用特定点的处的梯度线性逼近附近点处的函数值，我们可以近似使用如下的函数值线性逼近方程：

{f{ \left( {a+h} \right) } \approx f{ \left( {a} \right) }+f\mathop{{}}\nolimits^{{ \left( 1 \right) }}{ \left( {a} \right) }h}

现有如下题目：对于sin(-1:0.25:0.5)，使用泰勒公式估计sin(0.5005)的值。

%% Section 01
y = sin(-1:0.25:0.5);
yg = gradient(y, 0.25);
y_guess = y(end) + yg(end)*(0.5005 - 0.5);
disp("预测结果：");
disp(y_guess);
disp("实际结果：");
disp(sin(0.5005));

1.2 多元函数条件极值

对于目标z = f(x, y)，我们有条件φ(x, y) = 0。则优化问题可以转换为：

{L=f{ \left( {x,y} \right) }+ \lambda \varphi { \left( {x,y} \right) }}

接下来我们只需要对L中的x,y和φ求偏导即可：

{ \left\{ {\begin{array}{*{20}{l}} {L\mathop{{}}\nolimits_{{x}}=\frac{{ \partial L}}{{ \partial x}}=0}\\ {L\mathop{{}}\nolimits_{{y}}=\frac{{ \partial L}}{{ \partial y}}=0}\\ {L\mathop{{}}\nolimits_{{ \lambda }}=\frac{{ \partial L}}{{ \partial \lambda }}=0} \end{array}}\right. }

例1：求表面积为a2的体积最大长方体：
设长、宽、高分别为x、y、z，则我们有如下条件φ，和目标g：

{ \left\{ {\begin{array}{*{20}{l}} { \varphi =2xy+2xz+2yz=a\mathop{{}}\nolimits^{{2}}}\\ {g=V=xyz} \end{array}}\right. }

接下来我们构造函数L，并求最优解：

{\begin{array}{*{20}{l}} {L=xyz+ \lambda { \left( {2xy+2xz+2yz-a\mathop{{}}\nolimits^{{2}}} \right) }}\\ {{ \left\{ {\begin{array}{*{20}{l}} {L\mathop{{}}\nolimits_{{x}}=yz+2 \lambda { \left( {y+z} \right) }=0}\\ {L\mathop{{}}\nolimits_{{y}}=xz+2 \lambda { \left( {x+z} \right) }=0}\\ {L\mathop{{}}\nolimits_{{z}}=xy+2 \lambda { \left( {x+y} \right) }=0}\\ {L\mathop{{}}\nolimits_{{ \lambda }}=2xy+2xz+2yz-a\mathop{{}}\nolimits^{{2}}=0} \end{array}}\right. }} \end{array}}

二、线性回归模型

参考标量的f(x)=wx+b，对于线性回归我们有f(X)=WX+B，其中W是权重矩阵，X是训练样本矩阵，B是偏置项：

\begin{array}{*{20}{l}} {f{ \left( {X} \right) }=WX+B}\\ {X={ \left[ {x\mathop{{}}\nolimits_{{1}},x\mathop{{}}\nolimits_{{2}},…,x\mathop{{}}\nolimits_{{n}}} \right] }} \end{array}

下面我们需要解决的问题是如何求解权重矩阵W和偏置项b，于是问题转换为：

{min\text{ }f{ \left( {X} \right) },\text{ }X \in R\mathop{{}}\nolimits^{{n}}}

2.1 梯度与Hessian矩阵

对于多元情况的导数g(x)，我们有：

{g{ \left( {X} \right) }= \nabla f{ \left( {X} \right) }=\frac{{ \partial f{ \left( {X} \right) }}}{{ \partial X}}={ \left[ {\begin{array}{*{20}{c}} {\frac{{ \partial f{ \left( {X} \right) }}}{{ \partial x\mathop{{}}\nolimits_{{1}}}}}\\ {M}\\ {\frac{{ \partial f{ \left( {X} \right) }}}{{ \partial x\mathop{{}}\nolimits_{{n}}}}} \end{array}} \right] }}

下面我们用Hessian矩阵表示二阶导数：

{H{ \left( {x} \right) }= \nabla \mathop{{}}\nolimits^{{2}}f{ \left( {x} \right) }={ \left[ {\begin{array}{*{20}{c}} {\frac{{ \partial \mathop{{}}\nolimits^{{2}}f{ \left( {X} \right) }}}{{ \partial x\mathop{{}}\nolimits_{{2}}^{{1}}}}}&{ \cdots }&{\frac{{ \partial \mathop{{}}\nolimits^{{2}}f{ \left( {X} \right) }}}{{ \partial x\mathop{{}}\nolimits_{{1}} \partial x\mathop{{}}\nolimits_{{n}}}}}\\ { \vdots }&{ \ddots }&{ \vdots }\\ {\frac{{ \partial \mathop{{}}\nolimits^{{2}}f{ \left( {X} \right) }}}{{ \partial x\mathop{{}}\nolimits_{{n}} \partial x\mathop{{}}\nolimits_{{1}}}}}&{ \cdots }&{\frac{{ \partial \mathop{{}}\nolimits^{{2}}f{ \left( {X} \right) }}}{{ \partial x\mathop{{}}\nolimits_{{2}}^{{n}}}}} \end{array}} \right] }= \nabla { \left( { \nabla f{ \left( {X} \right) }} \right) }\mathop{{}}\nolimits^{{T}}}

2.2 二次型

2.2.1 二次型定义

给定一个n*m的矩阵A，有如下函数：

{X\mathop{{}}\nolimits^{{T}}AX={\mathop{ \sum }\limits_{{i=1}}^{{n}}{x\mathop{{}}\nolimits_{{i}}{ \left( {AX} \right) }\mathop{{}}\nolimits_{{i}}={\mathop{ \sum }\limits_{{i=1}}^{{n}}{x\mathop{{}}\nolimits_{{i}}{ \left( {{\mathop{ \sum }\limits_{{j=1}}^{{m}}{a\mathop{{}}\nolimits_{{ij}}x\mathop{{}}\nolimits_{{j}}}}} \right) }}}=}}{\mathop{ \sum }\limits_{{i=1}}^{{n}}{{\mathop{ \sum }\limits_{{j=1}}^{{m}}{x\mathop{{}}\nolimits_{{i}}x\mathop{{}}\nolimits_{{j}}a\mathop{{}}\nolimits_{{ij}}}}}}}

则称该函数为二次型。对于给定的矩阵:

{A \in R\mathop{{}}\nolimits^{{n}}}

如果对于所有的:

{X \in R\mathop{{}}\nolimits^{{n}}}

有:

{X\mathop{{}}\nolimits^{{T}}AX \ge 0}

则为半正定矩阵，此时特征值λ(A)≥0（正定矩阵则是要求全部大于0）。

2.2.2 二次型求导

通过对比标量的求导情况，我们可以推导出二次型的一阶导数与二阶导数：

{\begin{array}{*{20}{c}} {{ \left\{ {\begin{array}{*{20}{l}} {\text{ }\begin{array}{*{20}{l}} {{ \left( {ax} \right) }\mathop{{}}\nolimits^{{ \left( 1 \right) }}=a}&{ \left( ax \left) \mathop{{}}\nolimits^{{{ \left( {2} \right) }}}=0\right. \right. } \end{array}}\\ {\begin{array}{*{20}{l}} { \left( xax \left) \mathop{{}}\nolimits^{{{ \left( {1} \right) }}}=2ax\right. \right. }&{ \left( xax \left) \mathop{{}}\nolimits^{{{ \left( {2} \right) }}}=2a\right. \right. } \end{array}} \end{array}}\right. }}\\ { \Downarrow }\\ {{ \left\{ {\begin{array}{*{20}{l}} {\begin{array}{*{20}{l}} { \nabla \left( AX \left) =A\right. \right. }&{ \nabla \mathop{{}}\nolimits^{{2}} \left( AX \left) =0\right. \right. } \end{array}}\\ {\begin{array}{*{20}{l}} { \nabla \left( X\mathop{{}}\nolimits^{{T}}AX \left) =2AX\right. \right. }&{ \nabla \mathop{{}}\nolimits^{{2}} \left( X\mathop{{}}\nolimits^{{T}}AX \left) =2A\right. \right. } \end{array}} \end{array}}\right. }} \end{array}}

2.3 最小二乘法

2.3.1 最小二乘法简述

梯度的定义：在标量场f中的一点处存在一个矢量G，该矢量的方向为f在该点处变化率最大的方向，其模也等于这个最大变化率的数值，则矢量G称为该标量场f的梯度。即，梯度是矢量。

下面我们给出二范数的定义：Euclid范数，即向量元素绝对值的平方和再开方，下面是二范数的平方：

{{{ \left\Vert {X} \right\Vert }\mathop{{}}\nolimits_{{2}}^{{2}}}=x\mathop{{}}\nolimits_{{2}}^{{1}}+x\mathop{{}}\nolimits_{{2}}^{{2}}+ \cdots +x\mathop{{}}\nolimits_{{2}}^{{n}}=x\mathop{{}}\nolimits^{{T}}x}

带入到之前提到的优化问题，于是我们有：

2.3.2 最小二乘法本质

现在有如下平方误差和S：

{S={{\mathop{ \sum }\limits_{{i=1}}^{{n}}{{ \left( {y-y\mathop{{}}\nolimits_{{i}}} \right) }\mathop{{}}\nolimits^{{2}}}}}}

该函数是一个二次函数，其导数为0时取得最小值，于是有：

{\begin{array}{*{20}{c}} {\frac{{dS}}{{dy}}=2{\mathop{ \sum }\limits_{{i=1}}^{{n}}{{ \left( {y-y\mathop{{}}\nolimits_{{i}}} \right) }}}=2{ \left( {n \times y-{\mathop{ \sum }\limits_{{i=1}}^{{n}}{y\mathop{{}}\nolimits_{{i}}}}} \right) }=0}\\ { \Downarrow }\\ {y=\frac{{{\mathop{ \sum }\limits_{{i=1}}^{{n}}{y\mathop{{}}\nolimits_{{i}}}}}}{{n}}} \end{array}}

即“误差最小的方法是多次测量取算术平均数”。

2.4 泰勒级数与极值

对于输入为向量的泰勒级数展开：

{f{ \left( {X\mathop{{}}\nolimits_{{k}}+ \delta } \right) } \approx f{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }+g\mathop{{}}\nolimits^{{T}}{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) } \delta + \delta \mathop{{}}\nolimits^{{T}}H{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) } \delta }

g(x_k) = 0的点为平稳点（候选点），如果有H(x_k)>0，则点x_k为严格局部极小点（反之为严格局部最大点），如果H(x_k)为不定矩阵，则x_{k是一个鞍点。}

2.5 无约束优化迭代法

    迭代法基本结构（最小化f(x)）：
1：选择一个初始点，设置一个convergence tolerance τ，计数k。
2：决定搜索方向dk，使得函数下降。
3：构建xk+1 = xk+1 + αkdk，其中α称为步长或是学习速率。
4：如果||d||2 < τ，则输出解，否则重复直到收敛。

2.5.1 梯度下降法

方向选取：d_k = -g(x_k)

对于以上算法，主要问题在于如何确定d_k，对于一阶导数的情况，d_k = -g(x_k)，下面给出证明：

{\begin{array}{*{20}{c}} {\text{一}\text{阶}\text{导}\text{数}\text{的}\text{情}\text{况}\text{：}f{ \left( {X\mathop{{}}\nolimits_{{k}}+D\mathop{{}}\nolimits_{{k}}} \right) } \approx f{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }+g\mathop{{}}\nolimits^{{T}} \left( X\mathop{{}}\nolimits_{{k}} \left) D\mathop{{}}\nolimits_{{k}}\right. \right. }\\ {\text{此}\text{时}\text{要}f{ \left( {X\mathop{{}}\nolimits_{{k}}+D\mathop{{}}\nolimits_{{k}}} \right) }\text{递}\text{减}\text{，}\text{则}\text{等}\text{式}\text{右}\text{边}\text{的}f{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }\text{需}\text{要}\text{加}\text{上}\text{一}\text{个}\text{负}\text{数}}\\ { \Downarrow }\\ {\text{这}\text{时}\text{候}\text{问}\text{题}\text{转}\text{换}\text{为}\text{求}g\mathop{{}}\nolimits^{{T}} \left( X\mathop{{}}\nolimits_{{k}} \left) D\mathop{{}}\nolimits_{{k}}\text{的}\text{最}\text{小}\text{值}\right. \right. }\\ { \Downarrow }\\ {\text{回}\text{忆}\text{向}\text{量}\text{内}\text{积}\text{的}\text{情}\text{况}\text{：}a∙b=a\mathop{{}}\nolimits^{{T}}b={ \left\Vert {a} \right\Vert }\mathop{{}}\nolimits_{{2}}∙{ \left\Vert {b} \right\Vert }\mathop{{}}\nolimits_{{2}}∙cos \theta }\\ {\text{即}\text{：}\text{当}a=-b\text{时}\text{，}a∙b\text{取}\text{最}\text{小}\text{值}} \end{array}}

2.5.2 牛顿法

方向选取：d_k = -H^-1(x_k)g(x_k)

{\begin{array}{*{20}{c}} {\text{对}\text{于}\text{二}\text{阶}\text{导}\text{数}\text{的}\text{情}\text{况}\text{：}f{ \left( {X\mathop{{}}\nolimits_{{k}}+D\mathop{{}}\nolimits_{{k}}} \right) } \approx f{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }+g\mathop{{}}\nolimits^{{T}} \left( X\mathop{{}}\nolimits_{{k}} \left) D\mathop{{}}\nolimits_{{k}}+\frac{{1}}{{2}}d\mathop{{}}\nolimits_{{T}}^{{k}}H{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }d\mathop{{}}\nolimits_{{k}}\right. \right. }\\ {\text{令}\frac{{ \partial f{ \left( {X\mathop{{}}\nolimits_{{k}}+D\mathop{{}}\nolimits_{{k}}} \right) }}}{{ \partial d\mathop{{}}\nolimits_{{k}}}}=0\text{ } \Rightarrow \text{ }g \left( X\mathop{{}}\nolimits_{{k}} \left) +H{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }d\mathop{{}}\nolimits_{{k}}=0\right. \right. }\\ {-\text{若}Hessian\text{矩}\text{阵}\text{正}\text{定}\text{，}\text{则}d\mathop{{}}\nolimits_{{k}}=-H\mathop{{}}\nolimits^{{-1}}{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }g{ \left( {X\mathop{{}}\nolimits_{{k}}} \right) }}\\ {-\text{强}\text{制}\text{要}\text{求}Hessian\text{矩}\text{阵}\text{正}\text{定}} \end{array}}

下载markdown原文：
Download

机器不学习 01 线性回归与梯度下降