《机器学习数学基础》第1章1.5.3节介绍了向量范数的基本定义。
本文在上述基础上,介绍向量范数的有关性质。
**注意:**以下均在欧几里得空间讨论,即欧氏范数。
-
实(或复)向量
$\pmb{x}$ ,范数 $\begin{Vmatrix}\pmb{x}\end{Vmatrix}$ 满足:- $\begin{Vmatrix}\pmb{x}\end{Vmatrix}\ge0$
- $\begin{Vmatrix}\pmb{x}\end{Vmatrix}=0 \Leftrightarrow \pmb{x}=\pmb{0}$
- $\begin{Vmatrix}c\pmb{x}\end{Vmatrix}=|c|\begin{Vmatrix}\pmb{x}\end{Vmatrix}$ ,$c$ 是标量
-
设
$\pmb{x,y}\in\mathbb{C}^n$ ,根据施瓦茨不等式:$|\pmb{x}^*\pmb{y}|\le\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}$ 。若
$n=1$ ,则上式退化为$|\overline{x}y|\le|x||y|$ ,其中$x,y\in\mathbb{C}$ 。因为$|\overline{x}|=|x|$ ,所以$|\overline{x}y|\le|\overline{x}||y|$ -
三角不等式:$\pmb{x}+\pmb{y}\le \begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}$
证明
$$ \begin{split}\begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 &= (\pmb{x}+\pmb{y})^(\pmb{x}+\pmb{y})\ &= \pmb{x}^\pmb{x}+\pmb{x}^\pmb{y}+\pmb{y}^\pmb{x}+\pmb{y}^\pmb{y}\&=\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+\pmb{x}^\pmb{y}+\pmb{y}^*\pmb{x}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2\end{split} $$
根据复数的性质和施瓦茨不等式:
$$ \pmb{x}^\pmb{y}+\pmb{y}^\pmb{x}=\pmb{x}^\pmb{y}+\overline{\pmb{x}^\pmb{y}}=2Re(\pmb{x}^\pmb{y})\le 2|\pmb{x}^\pmb{y}|\le2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix} $$
由上述结果,可得:
$$ \begin{Vmatrix}\pmb{x}+\pmb{y}\end{Vmatrix}^2 \le \begin{Vmatrix}\pmb{x}\end{Vmatrix}^2+2\begin{Vmatrix}\pmb{x}\end{Vmatrix}\begin{Vmatrix}\pmb{y}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix}^2=(\begin{Vmatrix}\pmb{x}\end{Vmatrix}+\begin{Vmatrix}\pmb{y}\end{Vmatrix})^2 $$
证毕。
若
证明
设特解
在
这说明
设
所以
又因为
合并以上结果,得:
即
证毕。
若
证明
由定理一,任意特解可以表示为
当
证毕。
若
证明
因为
推导方法1
因为
因为
故:$\pmb{c}=(\pmb{AA}^T)^{-1}\pmb{b}$
解得:$\pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}$
推导方法2,使用拉格朗日乘数法$^{[4]}$ $$ \begin{split}minimize \quad &\begin{Vmatrix}\pmb{x}\end{Vmatrix}\subject\quad to \quad& \pmb{Ax}=\pmb{b}\end{split} $$
最小化 $\begin{Vmatrix}\pmb{x}\end{Vmatrix}$ ,等价于最小化 $\begin{Vmatrix}\pmb{x}\end{Vmatrix}^2=\pmb{x}^T\pmb{x}$
拉格朗日函数:$L(\pmb{x},\pmb{\lambda})=\pmb{x}^T\pmb{x}+\pmb{\lambda}^T(\pmb{Ax}-\pmb{b})$
其中
令上述两式等于零,得到最优化条件式。得:$\pmb{x}^+=-\frac{1}{2}\pmb{A}^T\pmb{\lambda}$ ,代入
解得:$\pmb{\lambda}=-2(\pmb{AA}^T)^{-1}\pmb{b}$
所以:$\pmb{x}^+=\pmb{A}^T(\pmb{AA}^T)^{-1}\pmb{b}$
计算
设
最佳值:
注意:
- 在上述计算中,使用了矩阵求导等相关计算,请参阅《机器学习数学基础》第4章“向量分析”有关内容,书中的附录中也附有各种计算公式。
- 定理三,仅限于
$\pmb{A}$ 的列向量线性无关。若列向量线性相关,即$rank\pmb{A}\le m$ ,则$\pmb{AA}^T$ 不可逆。此时仍有极小范数解,表示为$\pmb{x}^+=\pmb{A}^+\pmb{b}$ ,其中$\pmb{A}^+$ 称为$\pmb{A}$ 的伪逆矩阵(或广义逆矩阵)$^{[6]}$。
[1]. 极小范数解[DB/OL]. https://ccjou.wordpress.com/2014/05/21/極小範數解/
[2]. 矩阵基本子空间[DB/OL]. https://lqlab.readthedocs.io/en/latest/math4ML/linearalgebra/basetheory.html
[4]. Lagrange multiplier[DB/OL]. https://en.wikipedia.org/wiki/Lagrange_multiplier
[5]. 齐伟. 机器学习数学基础[M]. 北京:电子工业出版社, 2023年1月第3次印刷
[6]. 广义逆矩阵[DB/OL]. https://zh.wikipedia.org/wiki/广义逆矩阵