当前位置 博文首页 > shiyueyue0822的博客:花书笔记1-数学基础1

    shiyueyue0822的博客:花书笔记1-数学基础1

    作者:[db:作者] 时间:2021-08-08 22:14

    ?

    1. 极大似然估计

    因为之前学过李航的那本,所以这里了解的比较好。极大似然估计是当变量服从某一分布时,令情况(数据)出现的概率最大时的参数。

    设一个变量服从高斯分布。则对n个数据进行似然估计,可以得到如果让这n个数据发生,则这个变量应服从\mu = \frac{\sum x_{i}}{n} \\ \sigma^{2} =\frac{\sum (x_{i}-\mu )^{2}}{n}的高斯分布

    ?

    设多元回归的残差服从标准正太分布,则解出来的w和最小二乘法得到的是一样的。

    ?

    2. 无约束优化

    找到函数的最大值或最小值

    即找到令f^{'}(x)=0x_{0}。有两种方法:梯度下降法和牛顿法。

    2.1 梯度下降法

    为什么选择负梯度方向为下降方向?

    因为在这个方向上值减少的最快,能最快找到最小值。

    为森么在这个方向上下降最快?

    令下降方向与x坐标轴夹角为\theta,并且下降长度为l

    则在单位长度上下降的大小(即下降速度):

    \frac{f(x_{0}+lcos(\theta),y_{0}+lsin(\theta)))-f(x_{0},y_{0})}{l}

    做下变换:

    \frac{f(x_{0}+lcos(\theta),y_{0}+lsin(\theta)))-f(x_{0},y_{0})}{l}\\ =sin(\theta)\frac{f(x_{0}+lcos(\theta),y_{0}+lsin(\theta)))-f(x_{0}+lcos(\theta),y_{0})}{lsin(\theta)}+cos(\theta)\frac{f(x_{0}+lcos(\theta),y_{0}))-f(x_{0},y_{0})}{lcos(\theta)} \\ =<[sin(\theta),cos(\theta)],[f^{'}_{x},f^{'}_{y}]>

    当且仅当两个向量同方向时,值为最大。

    即下降最快的方向是梯度方向。

    2.2 牛顿法

    是个啥?

    找到即找到令f^{'}(x)=0x_{0}

    1)在f^{'}(x)上做切线,逐渐逼近x_{0}

    2) 让二阶泰勒展开等同于原曲线,则其极小点为原f(x)极小点。

    ?

    3. 有约束优化

    3.1.等式约束

    \begin{Bmatrix} min f(x)\\ g(x)=0 \end{Bmatrix}

    那么,最优解的点应该同时在g(x),f(x)上,并且其梯度方向应该共线。即

    \\f^{'}(x)=\lambda g^{'}(x)\\ g(x) = 0

    则,根据以上引入拉格朗日函数:

    \iota =f(x)+\lambda g(x)

    令其偏导等于0,就得到了KKT条件。这样就将等式约束优化问题转化为无约束优化问题,对KKT条件求解方程组即可。\lambda是拉格朗日乘子,有多少个等式约束,就有多少个\lambda

    3.2. 不等式约束

    \begin{Bmatrix} min f(x)\\ g(x)\leqslant 0 \end{Bmatrix}

    当只有1个不等式约束时,那么可以当作等式约束去做。

    有多个不等式约束时,

    可行域在不等式约束和f(x)相交的点上。这时:

    \\ g_{1}(x^{*})=0 \\ g_{2}(x^{*})=0 \\ \vdots \\ g_{i}(x^{*})\leqslant 0 \\ \vdots \\ g_{n}(x^{*}) \leqslant 0

    那么那些值小于等于0的不等式时不起约束作用的。

    对于起约束作用的不等式,f(x)在最优解x^{*}上的梯度方向可以用-\bigtriangledown g_{1}(x^{*}),\cdots ,-\bigtriangledown g_{i-1}(x^{*})线性表示,并且系数为正。因为g(x)的梯度方向是向增加那个方向走,那么是朝向g(x)\geq 0的方向,而\bigtriangledown f(x^{*})是朝向g(x)\leqslant 0的方向,因此这里用了g(x)的负梯度方向。

    即:

    \\\bigtriangledown f(x^{*})=-\mu _{1}\bigtriangledown g_{1}(x^{*})+\cdots +-\mu _{i-1}\bigtriangledown g_{i-1}(x^{*})\\ \mu_{1},\cdots ,\mu_{i-1} >0

    那么那些不起约束作用的不等式约束怎么办呢?

    令他们的线性表示系数为0啊。

    则有:

    \\\bigtriangledown f(x^{*})=-\mu _{1}\bigtriangledown g_{1}(x^{*})+\cdots +-\mu _{i-1}\bigtriangledown g_{i-1}(x^{*}) +-\mu _{i}\bigtriangledown g_{i}(x^{*})+\cdots + -\mu _{n}\bigtriangledown g_{n}(x^{*})\\ \mu_{1},\cdots ,\mu_{i-1} >0 \\ \mu_{i},\cdots ,\mu_{n} =0

    也可以这么表示:

    \\\bigtriangledown f(x^{*})=-\mu _{1}\bigtriangledown g_{1}(x^{*})+\cdots +-\mu _{i-1}\bigtriangledown g_{i-1}(x^{*}) +-\mu _{i}\bigtriangledown g_{i}(x^{*})+\cdots + -\mu _{n}\bigtriangledown g_{n}(x^{*})\\ \mu_{1},\cdots ,\mu_{n} \geq 0 \\ \mu _{1} g_{1}(x^{*})+\cdots +\mu _{i-1} g_{i-1}(x^{*}) +\mu _{i} g_{i}(x^{*})+\cdots + \mu _{n}g_{n}(x^{*}) = 0

    即这样就把不等式约束问题转变为无约束优化问题,通过求解方程即可得到最优解。

    这里引入拉格朗日函数:

    \\ \iota =f\left ( x^{*} \right )+\mu _{1} g_{1}(x^{*})+\cdots +\mu _{i-1} g_{i-1}(x^{*}) +\mu _{i} g_{i}(x^{*})+\cdots + \mu _{n}g_{n}(x^{*})\\ \mu_{1},\cdots ,\mu_{n} \geq 0

    对函数求偏导即可得到KKT条件。

    如何通俗地讲解对偶问题?尤其是拉格朗日对偶lagrangian duality? - 彭一洋的回答 - 知乎 https://www.zhihu.com/question/58584814/answer/159863739

    ?

    ?

    cs
    上一篇:没有了
    下一篇:没有了