线性回归和线性分类器

最小二乘法（OLS）

线性模型的定义：
$y = X w + ϵ$
其中， $y \in R^{n}$ 为因变量（目标变量，列向量）， $w$ 为模型的权重（列向量）， $X$ 为观测得到的特征矩阵（ $n \times (m + 1)$ ，秩为 $m + 1$ ）， $ϵ$ 为随机不可测误差。
- 模型的限制：
  - 随机误差的数学期望为 $0$
  - 随机误差具有等分散性（相同的有限方差）
  - 随机误差不相关
无偏（Unbiased）估计：期望值与估计参数真实值相等。
$E [{\hat{w}}_{i}] = w_{i}$
OLS 均方误差公式：
$\begin{array}{rcl} L (X, y, w) & = & \frac{1}{2 n} \sum_{i = 1}^{n} (y_{i} - w^{T} x_{i})^{2} \\ = & \frac{1}{2 n} {‖ y - X w ‖}_{2}^{2} \\ = & \frac{1}{2 n} (y - X w)^{T} (y - X w) \end{array}$
OLS 对参数求导：
$\begin{array}{rcl} \frac{\partial L}{\partial w} & = & \frac{1}{2 n} (- 2 X^{T} y + 2 X^{T} X w) \end{array}$ $\begin{array}{rcl} \frac{\partial L}{\partial w} = 0 & \Leftrightarrow & w = {(X^{T} X)}^{- 1} X^{T} y \end{array}$
基于定义和条件，根据高斯-马尔可夫定理，模型参数的 OLS 估计是所有线性无偏估计中最优的，即通过 OLS 估计可以获得最低的方差。
若不选择最小化均方误差，那么就不满足高斯-马尔可夫定理的条件，得到的估计将不再是最佳的线性无偏估计。

极大似然估计（MLE）

伯努利分布：如果一个随机变量只有两个值（1 和 0，相应的概率为 $θ$ 和 $1 - θ$ ），那么该随机变量满足 伯努利分布 ，遵循以下概率分布函数：
$p (θ, x) = θ^{x} (1 - θ)^{1 - x}, x \in {0, 1}$
其中，分布参数 $θ$ 就是事件 $X$ 的 概率估计 。

对于多次独立试验，记观测结果为 $x = (x_{1}, x_{2}, \dots, x_{400})$ ，其似然为
$p (x; θ) = \prod_{i = 1}^{400} θ^{x_{i}} (1 - θ)^{(1 - x_{i})}$
正态分布：若随机变量 $X$ 服从位置参数为 $μ$ 、尺度参数为 $σ$ 的概率分布，且其概率密度函数为
$f (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$
则该变量称为 正态随机变量 ，其服从 正态分布 。当 $μ = 0, σ = 1$ 时，其定义为 标准正态分布 。
$f (x) = \frac{1}{\sqrt{2 π}} e^{(- \frac{x^{2}}{2})}$
假设随机误差 $ϵ \sim N (0, σ^{2})$ ，改写模型可得
$y_{i} \sim \sum_{j = 1}^{m} w_{j} X_{i j} + N (0, σ^{2})$ $p (y_{i} | X; w) = N (\sum_{j = 1}^{m} w_{j} X_{i j}, σ^{2})$
根据 高斯-马尔科夫定理 的 误差不相关约束 ，将似然求对数，可得
$\log p (y | X; w) = - \frac{n}{2} \log 2 π σ^{2} - \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (y_{i} - w^{T} x_{i})^{2}$
对其最大化，可得
$w_{ML} = \arg min_{w} L (X, y, w)$
所以，当测量误差服从正态（高斯）分布的情况下，最小二乘法等价于极大似然估计。

偏置-方差分解

线性回归模型的要求：
- 目标真值是确定性函数与随机误差之和： $y = f (x) + ϵ$
- 误差符合均值为零、方差一致的正态分布： $ϵ \sim N (0, σ^{2})$
- 目标真值也服从正态分布： $y \sim N (f (x), σ^{2})$
点 $x$ 的误差可以被分解为三部分：
$Err (x) = Bias {(\hat{f})}^{2} + Var (\hat{f}) + σ^{2}$
其中，
- $Bias (\hat{f})$ 为偏置，它度量了学习算法的期望输出与真实结果的偏离程度，刻画了算法的拟合能力；
- $Var (\hat{f})$ 为方差，它代表「同样大小的不同的训练数据集训练出的模型」与「这些模型的期望输出值」之间的差异。
- $σ^{2}$ 为 不可消除误差 ，它刻画了当前任务任何算法所能达到的期望泛化误差的下界，即刻画了问题本身的难度。
当模型计算量增加（自由参数数量增加），模型的方差增加、偏置下降，可能导致过拟合。当模型计算量太少（自由参数数量太少），可能导致欠拟合。
高斯-马尔科夫定理表明，在线性模型参数估计问题中，OLS 估计是最佳的线性无偏估计。对于所有无偏线性模型 $g$ ， $Var (\hat{f}) \leq Var (g)$ 。

线性回归的正则化

在一些情形下，会为了稳定性（降低模型的方差）而导致模型的偏置 $Bias (\hat{f})$ 提高。高斯-马尔可夫定理成立的条件之一就是矩阵 $X$ 是满秩的，否则矩阵 $X^{T} X$ 为奇异矩阵（退化矩阵），其逆矩阵 $(X^{T} X)^{- 1}$ 不存在，使得 OLS 的解 $(X^{T} X)^{- 1} X^{T} y$ 也不存在。这类问题被称为 病态问题 ，必须通过 正则化过程 加以矫正。

吉洪诺夫（Tikhonov）正则化：在均方误差的中加入新变量
$L (X, y, w) = \frac{1}{2 n} {‖ y - X w ‖}_{2}^{2} + {‖ Γ w ‖}^{2}$
吉洪诺夫矩阵： $Γ = \frac{λ}{2} E$ ，可以将最小化均方误差问题变为 L2正则化问题 ，其解为
$w = {(X^{T} X + λ E)}^{- 1} X^{T} y$

这一类回归问题被称为 岭回归（Ridge Regression） ，「岭」指的是对角矩阵，它可以保证 $X^{T} X$ 是一个正则矩阵。

岭回归降低了方差，但增加了偏置。参数的正则向量也被最小化，使得解向 $\vec{0}$ 移动。

线性分类

基本思路：目标分类的值可以被特征空间中的一个超平面分开。
如果这可以无误差地达成，那么训练集被称为 线性可分 。
对于二分类问题，将正例和反例分别记为 $+ 1$ 和 $- 1$ ，则线性分类器可以通过回归进行定义：
$a (x) = sign (w^{T} x)$
其中，
- $x$ 是特征向量（包括标识）。
- $w$ 是线性模型中的权重向量（偏置为 $w_{0}$ ）。
- $sign (∙)$ 是符号函数，返回参数的符号。
- $a (x)$ 是分类 $x$ 的分类器。

基于逻辑回归的线性分类器

逻辑回归是线性分类器的一个特殊情形，但逻辑回归有一个额外的优点：它可以预测样本 $x_{i}$ 为分类「+」的概率 $p_{+}$ ：

p_{+} = P (y_{i} = 1 ∣ x_{i}, w) = σ (w^{T} x)

首先使用 OLS 构造预测

b (x) = w^{T} x \in R

随后，使用 Sigmoid 函数 将预测值压缩到 $[0, 1]$ 区间

σ (z) = \frac{1}{1 + e^{- z}}

极大似然估计与逻辑回归

向量 $\vec{x_{A}}$ 与平面 $w^{T} x = 0$ 的距离定义为
$ρ (x_{A}, w^{T} x = 0) = \frac{w^{T} x_{A}}{∥ w ∥}$
表达式 $w^{T} x_{i}$ 的绝对值越大，点 $x_{i}$ 离平面 $w^{T} x = 0$ 的距离就越远。
逻辑损失函数定义为
$L_{\log} (X, y, w) = \sum_{i = 1}^{ℓ} \log (1 + \exp^{- y_{i} w^{T} x_{i}})$
用分类边缘 $M (x_{i})$ 改写损失函数，则有 $L (M) = \log (1 + e^{- M})$ 。

逻辑回归的 L2 正则化

其正则化过程和岭回归类似，最小化以下等式

J (X, y, w) = L_{\log} (X, y, w) + λ | w |^{2}

在逻辑回归中，一般使用正则化系数的倒数 $C = \frac{1}{λ}$ ：

\hat{w} = \arg min_{w} J (X, y, w) = \arg min_{w} (C \sum_{i = 1}^{ℓ} \log (1 + \exp^{- y_{i} w^{T} x_{i}}) + | w |^{2})

验证和学习曲线

简单模型的训练误差和验证误差很接近，且都比较大。这暗示模型欠拟合，参数数量不够多。
高度复杂模型的训练误差和验证误差相差很大，这暗示模型过拟合。当参数数量过多或者正则化不够严格时，算法可能被数据中的噪声「转移注意力」，没能把握数据的整体趋势。

数据对于模型的影响（学习曲线）

事先固定模型的参数，将误差视为训练集样本数量的函数，改变训练集大小，查看模型质量与训练集数据量之间的依赖关系。
对于少量数据而言，训练集和交叉验证集之间的误差差别（方差）相当大，这暗示了过拟合。
同样的模型，使用大量数据，误差「收敛」，暗示了欠拟合。
加入更多数据，该训练集的误差不会增加，且该验证集上的误差也不会下降。
尽管曲线收敛，但学习曲线和验证曲线普遍下移（AUC值下降），同样暗示过拟合。