实验四
线性回归和线性分类器
最小二乘法(OLS)
- 
线性模型的定义: 其中, - 模型的限制:
- 随机误差的数学期望为 
    
      
      
- 随机误差具有等分散性(相同的有限方差)
- 随机误差不相关
 
- 随机误差的数学期望为 
    
      
      
 
- 模型的限制:
- 
无偏(Unbiased)估计:期望值与估计参数真实值相等。 
- 
OLS 均方误差公式: 
- 
OLS 对参数求导: 
- 
基于定义和条件,根据高斯-马尔可夫定理,模型参数的 OLS 估计是所有线性无偏估计中最优的,即通过 OLS 估计可以获得最低的方差。 
- 
若不选择最小化均方误差,那么就不满足高斯-马尔可夫定理的条件,得到的估计将不再是最佳的线性无偏估计。 
极大似然估计(MLE)
- 
伯努利分布:如果一个随机变量只有两个值(1 和 0,相应的概率为 其中,分布参数 对于多次独立试验,记观测结果为 - 
正态分布:若随机变量 则该变量称为 正态随机变量 ,其服从 正态分布 。当 - 
假设随机误差 根据 高斯-马尔科夫定理 的 误差不相关约束 ,将似然求对数,可得 对其最大化,可得 所以,当测量误差服从正态(高斯)分布的情况下, 最小二乘法等价于极大似然估计。 
偏置-方差分解
- 
线性回归模型的要求: - 目标真值是确定性函数与随机误差之和:
    
      
      
- 误差符合均值为零、方差一致的正态分布:
    
      
      
- 目标真值也服从正态分布:
    
      
      
 
- 目标真值是确定性函数与随机误差之和:
    
      
      
- 
点 其中, - 
    
      
      - 
    
      
      - 
    
      
      
 
- 
    
      
      
- 
当模型计算量增加(自由参数数量增加),模型的方差增加、偏置下降,可能导致过拟合。当模型计算量太少(自由参数数量太少),可能导致欠拟合。 
- 
高斯-马尔科夫定理表明,在线性模型参数估计问题中,OLS 估计是最佳的线性无偏估计。对于所有无偏线性模型 
线性回归的正则化
在一些情形下,会为了稳定性(降低模型的方差)而导致模型的偏置 
    
      
      
- 
吉洪诺夫(Tikhonov)正则化:在均方误差的中加入新变量 
- 
吉洪诺夫矩阵: 
这一类回归问题被称为 岭回归(Ridge Regression) ,「岭」指的是对角矩阵,它可以保证 
    
      
      
岭回归降低了方差,但增加了偏置。参数的正则向量也被最小化,使得解向 
    
      
      
线性分类
- 
基本思路:目标分类的值可以被特征空间中的一个超平面分开。 
- 
如果这可以无误差地达成,那么训练集被称为 线性可分 。 
- 
对于二分类问题,将正例和反例分别记为 其中, - 
    
      
      - 
    
      
      - 
    
      
      - 
    
      
      
 
- 
    
      
      
基于逻辑回归的线性分类器
逻辑回归是线性分类器的一个特殊情形,但逻辑回归有一个额外的优点:它可以预测样本 
    
      
      
首先使用 OLS 构造预测
随后,使用 Sigmoid 函数 将预测值压缩到 
    
      
      
极大似然估计与逻辑回归
- 
向量 表达式 - 
逻辑损失函数定义为 用分类边缘 
逻辑回归的 L2 正则化
其正则化过程和岭回归类似,最小化以下等式
在逻辑回归中,一般使用正则化系数的倒数 
    
      
      
验证和学习曲线
- 简单模型的训练误差和验证误差很接近,且都比较大。这暗示模型欠拟合,参数数量不够多。
- 高度复杂模型的训练误差和验证误差相差很大,这暗示模型过拟合。当参数数量过多或者正则化不够严格时,算法可能被数据中的噪声「转移注意力」,没能把握数据的整体趋势。
数据对于模型的影响(学习曲线)
- 事先固定模型的参数,将误差视为训练集样本数量的函数,改变训练集大小,查看模型质量与训练集数据量之间的依赖关系。
- 对于少量数据而言,训练集和交叉验证集之间的误差差别(方差)相当大,这暗示了过拟合。
- 同样的模型,使用大量数据,误差「收敛」,暗示了欠拟合。
- 加入更多数据,该训练集的误差不会增加,且该验证集上的误差也不会下降。
- 尽管曲线收敛,但学习曲线和验证曲线普遍下移(AUC值下降),同样暗示过拟合。


