线性回归和线性分类器

最小二乘法(OLS)

  • 线性模型的定义:

    y=Xw+ϵ

    其中,yRn 为因变量(目标变量,列向量),w 为模型的权重(列向量),X 为观测得到的特征矩阵( n×(m+1) ,秩为 m+1 ),ϵ 为随机不可测误差。

    • 模型的限制:
      • 随机误差的数学期望为 0
      • 随机误差具有等分散性(相同的有限方差)
      • 随机误差不相关
  • 无偏(Unbiased)估计:期望值与估计参数真实值相等。

    E[w^i]=wi
  • OLS 均方误差公式:

    L(X,y,w)=12ni=1n(yiwTxi)2=12nyXw22=12n(yXw)T(yXw)
  • OLS 对参数求导:

    Lw=12n(2XTy+2XTXw)Lw=0w=(XTX)1XTy
  • 基于定义和条件,根据高斯-马尔可夫定理,模型参数的 OLS 估计是所有线性无偏估计中最优的,即通过 OLS 估计可以获得最低的方差。

  • 若不选择最小化均方误差,那么就不满足高斯-马尔可夫定理的条件,得到的估计将不再是最佳的线性无偏估计。

极大似然估计(MLE)

  • 伯努利分布:如果一个随机变量只有两个值(1 和 0,相应的概率为 θ1θ​ ),那么该随机变量满足 伯努利分布 ,遵循以下概率分布函数:

    p(θ,x)=θx(1θ)1x,x{0,1}

    其中,分布参数 θ 就是事件 X概率估计

    对于多次独立试验,记观测结果为 x=(x1,x2,,x400) ,其 似然

    p(x;θ)=i=1400θxi(1θ)(1xi)
  • 正态分布:若随机变量 X 服从位置参数为 μ 、尺度参数为 σ 的概率分布,且其概率密度函数为

    f(x)=12πσe(xμ)22σ2

    则该变量称为 正态随机变量 ,其服从 正态分布 。当 μ=0,σ=1​ 时,其定义为 标准正态分布

    f(x)=12πe(x22)
  • 假设随机误差 ϵN(0,σ2) ,改写模型可得

    yij=1mwjXij+N(0,σ2)p(yi|X;w)=N(j=1mwjXij,σ2)

    根据 高斯-马尔科夫定理误差不相关约束 ,将似然求对数,可得

    logp(y|X;w)=n2log2πσ212σ2i=1n(yiwTxi)2

    对其最大化,可得

    wML=argminwL(X,y,w)

    所以,当测量误差服从正态(高斯)分布的情况下, 最小二乘法等价于极大似然估计。

偏置-方差分解

  • 线性回归模型的要求:

    • 目标真值是确定性函数与随机误差之和:y=f(x)+ϵ
    • 误差符合均值为零、方差一致的正态分布:ϵN(0,σ2)
    • 目标真值也服从正态分布:yN(f(x),σ2)
  • x 的误差可以被分解为三部分:

    Err(x)=Bias(f^)2+Var(f^)+σ2

    其中,

    • Bias(f^)偏置 ,它度量了学习算法的期望输出与真实结果的偏离程度,刻画了算法的拟合能力;
    • Var(f^)方差 ,它代表「同样大小的不同的训练数据集训练出的模型」与「这些模型的期望输出值」之间的差异。
    • σ2不可消除误差 ,它刻画了当前任务任何算法所能达到的期望泛化误差的下界,即刻画了问题本身的难度。
  • 当模型计算量增加(自由参数数量增加),模型的方差增加、偏置下降,可能导致过拟合。当模型计算量太少(自由参数数量太少),可能导致欠拟合。

  • 高斯-马尔科夫定理表明,在线性模型参数估计问题中,OLS 估计是最佳的线性无偏估计。对于所有无偏线性模型 gVar(f^)Var(g)

线性回归的正则化

在一些情形下,会为了稳定性(降低模型的方差)而导致模型的偏置 Bias(f^) 提高。高斯-马尔可夫定理成立的条件之一就是矩阵 X 是满秩的,否则矩阵 XTX 为奇异矩阵(退化矩阵),其逆矩阵 (XTX)1 不存在,使得 OLS 的解 (XTX)1XTy 也不存在。这类问题被称为 病态问题 ,必须通过 正则化过程 加以矫正。

  • 吉洪诺夫(Tikhonov)正则化:在均方误差的中加入新变量

    L(X,y,w)=12nyXw22+Γw2
  • 吉洪诺夫矩阵Γ=λ2E ,可以将最小化均方误差问题变为 L2正则化问题 ,其解为

    w=(XTX+λE)1XTy

这一类回归问题被称为 岭回归(Ridge Regression) ,「岭」指的是对角矩阵,它可以保证 XTX 是一个正则矩阵。

岭回归降低了方差,但增加了偏置。参数的正则向量也被最小化,使得解向 0 移动。

线性分类

  • 基本思路:目标分类的值可以被特征空间中的一个超平面分开。

  • 如果这可以无误差地达成,那么训练集被称为 线性可分

  • 对于二分类问题,将正例和反例分别记为 +11 ,则线性分类器可以通过回归进行定义:

    a(x)=sign(wTx)

    其中,

    • x 是特征向量(包括标识)。
    • w 是线性模型中的权重向量(偏置为 w0)。
    • sign() 是符号函数,返回参数的符号。
    • a(x) 是分类 x 的分类器。

基于逻辑回归的线性分类器

逻辑回归是线性分类器的一个特殊情形,但逻辑回归有一个额外的优点:它可以预测样本 xi 为分类「+」的概率 p+

p+=P(yi=1xi,w)=σ(wTx)

首先使用 OLS 构造预测

b(x)=wTxR

随后,使用 Sigmoid 函数 将预测值压缩到 [0,1] 区间

σ(z)=11+ez

极大似然估计与逻辑回归

  • 向量 xA 与平面 wTx=0 的距离定义为

    ρ(xA,wTx=0)=wTxAw

    表达式 wTxi 的绝对值越大,点 xi 离平面 wTx=0 的距离就越远。

  • 逻辑损失函数定义为

    Llog(X,y,w)=i=1log(1+expyiwTxi)

    用分类边缘 M(xi) 改写损失函数,则有 L(M)=log(1+eM)

逻辑回归的 L2 正则化

其正则化过程和岭回归类似,最小化以下等式

J(X,y,w)=Llog(X,y,w)+λ|w|2

在逻辑回归中,一般使用正则化系数的倒数 C=1λ

w^=argminwJ(X,y,w)=argminw (Ci=1log(1+expyiwTxi)+|w|2)

验证和学习曲线

  • 简单模型的训练误差和验证误差很接近,且都比较大。这暗示模型欠拟合,参数数量不够多。
  • 高度复杂模型的训练误差和验证误差相差很大,这暗示模型过拟合。当参数数量过多或者正则化不够严格时,算法可能被数据中的噪声「转移注意力」,没能把握数据的整体趋势。

数据对于模型的影响(学习曲线)

  • 事先固定模型的参数,将误差视为训练集样本数量的函数,改变训练集大小,查看模型质量与训练集数据量之间的依赖关系。
  • 对于少量数据而言,训练集和交叉验证集之间的误差差别(方差)相当大,这暗示了过拟合。
  • 同样的模型,使用大量数据,误差「收敛」,暗示了欠拟合。
  • 加入更多数据,该训练集的误差不会增加,且该验证集上的误差也不会下降。
  • 尽管曲线收敛,但学习曲线和验证曲线普遍下移(AUC值下降),同样暗示过拟合。