ベ断桥烟雨ミの学习笔记 ベ断桥烟雨ミの学习笔记
首页
机器学习
技术杂谈
  • Qlittle - 一个笔记Blog (opens new window)
  • 冰白寒祭的博客 (opens new window)
GitHub (opens new window)
首页
机器学习
技术杂谈
  • Qlittle - 一个笔记Blog (opens new window)
  • 冰白寒祭的博客 (opens new window)
GitHub (opens new window)
  • 蓝桥云课

    • 实验一
    • 挑战一
    • 实验二
    • 挑战二
    • 实验三
    • 挑战三
    • 实验四
      • 最小二乘法(OLS)
      • 极大似然估计(MLE)
      • 偏置-方差分解
      • 线性回归的正则化
      • 线性分类
      • 基于逻辑回归的线性分类器
      • 极大似然估计与逻辑回归
      • 逻辑回归的 L2 正则化
      • 验证和学习曲线
      • 数据对于模型的影响(学习曲线)
    • 挑战四
    • 实验五
    • 挑战五
    • 实验六
    • 挑战六
    • 实验七
    • 挑战七
    • 实验八
    • 挑战八
    • 实验九
    • 挑战九
  • 机器学习
  • 蓝桥云课
Dragon1573
2021-09-28
目录

实验四

# 线性回归和线性分类器

# 最小二乘法(OLS)

  • 线性模型的定义:

    y=Xw+ϵ

    其中,y∈Rn 为因变量(目标变量,列向量),w 为模型的权重(列向量),X 为观测得到的特征矩阵( n×(m+1) ,秩为 m+1 ),ϵ 为随机不可测误差。

    • 模型的限制:
      • 随机误差的数学期望为 0
      • 随机误差具有等分散性(相同的有限方差)
      • 随机误差不相关
  • 无偏(Unbiased)估计:期望值与估计参数真实值相等。

    E[w^i]=wi
  • OLS 均方误差公式:
    图片描述

  • OLS 对参数求导:

    ∂L∂w=12n(−2XTy+2XTXw)∂L∂w=0⇔w=(XTX)−1XTy
  • 基于定义和条件,根据高斯-马尔可夫定理,模型参数的 OLS 估计是所有线性无偏估计中最优的,即通过 OLS 估计可以获得最低的方差。

  • 若不选择最小化均方误差,那么就不满足高斯-马尔可夫定理的条件,得到的估计将不再是最佳的线性无偏估计。

# 极大似然估计(MLE)

  • 伯努利分布:如果一个随机变量只有两个值(1 和 0,相应的概率为 θ 和 1−θ​ ),那么该随机变量满足 伯努利分布 ,遵循以下概率分布函数:
    图片描述
    其中,分布参数 θ 就是事件 X 的 概率估计 。

    对于多次独立试验,记观测结果为 x=(x1,x2,…,x400) ,其 似然 为

    p(x;θ)=∏i=1400θxi(1−θ)(1−xi)
  • 正态分布:若随机变量 X 服从位置参数为 μ 、尺度参数为 σ 的概率分布,且其概率密度函数为

    f(x)=12πσe−(x−μ)22σ2

    则该变量称为 正态随机变量 ,其服从 正态分布 。当 μ=0,σ=1​ 时,其定义为 标准正态分布 。

    f(x)=12πe(−x22)
  • 假设随机误差 ϵ∼N(0,σ2) ,改写模型可得

    yi∼∑j=1mwjXij+N(0,σ2)p(yi|X;w)=N(∑j=1mwjXij,σ2)

    根据 高斯-马尔科夫定理 的 误差不相关约束 ,将似然求对数,可得

    log⁡p(y|X;w)=−n2log⁡2πσ2−12σ2∑i=1n(yi−wTxi)2

    对其最大化,可得

    wML=arg⁡minwL(X,y,w)

    所以,当测量误差服从正态(高斯)分布的情况下, 最小二乘法等价于极大似然估计。

# 偏置-方差分解

  • 线性回归模型的要求:

    • 目标真值是确定性函数与随机误差之和:y=f(x)+ϵ
    • 误差符合均值为零、方差一致的正态分布:ϵ∼N(0,σ2)
    • 目标真值也服从正态分布:y∼N(f(x),σ2)
  • 点 x 的误差可以被分解为三部分:

    Err(x)=Bias(f^)2+Var(f^)+σ2

    其中,

    • Bias(f^) 为 偏置 ,它度量了学习算法的期望输出与真实结果的偏离程度,刻画了算法的拟合能力;
    • Var(f^) 为 方差 ,它代表「同样大小的不同的训练数据集训练出的模型」与「这些模型的期望输出值」之间的差异。
    • σ2 为 不可消除误差 ,它刻画了当前任务任何算法所能达到的期望泛化误差的下界,即刻画了问题本身的难度。
  • 当模型计算量增加(自由参数数量增加),模型的方差增加、偏置下降,可能导致过拟合。当模型计算量太少(自由参数数量太少),可能导致欠拟合。

  • 高斯-马尔科夫定理表明,在线性模型参数估计问题中,OLS 估计是最佳的线性无偏估计。对于所有无偏线性模型 g , Var(f^)≤Var(g) 。

# 线性回归的正则化

在一些情形下,会为了稳定性(降低模型的方差)而导致模型的偏置 Bias(f^) 提高。高斯-马尔可夫定理成立的条件之一就是矩阵 X 是满秩的,否则矩阵 XTX 为奇异矩阵(退化矩阵),其逆矩阵 (XTX)−1 不存在,使得 OLS 的解 (XTX)−1XTy 也不存在。这类问题被称为 病态问题 ,必须通过 正则化过程 加以矫正。

  • 吉洪诺夫(Tikhonov)正则化:在均方误差的中加入新变量

    L(X,y,w)=12n‖y−Xw‖22+‖Γw‖2
  • 吉洪诺夫矩阵:Γ=λ2E ,可以将最小化均方误差问题变为 L2正则化问题 ,其解为

    w=(XTX+λE)−1XTy

这一类回归问题被称为 岭回归(Ridge Regression) ,「岭」指的是对角矩阵,它可以保证 XTX 是一个正则矩阵。

岭回归降低了方差,但增加了偏置。参数的正则向量也被最小化,使得解向 0→ 移动。

# 线性分类

  • 基本思路:目标分类的值可以被特征空间中的一个超平面分开。

  • 如果这可以无误差地达成,那么训练集被称为 线性可分 。

  • 对于二分类问题,将正例和反例分别记为 +1 和 −1 ,则线性分类器可以通过回归进行定义:

    a(x)=sign(wTx)

    其中,

    • x 是特征向量(包括标识)。
    • w 是线性模型中的权重向量(偏置为 w0)。
    • sign(∙) 是符号函数,返回参数的符号。
    • a(x) 是分类 x 的分类器。

# 基于逻辑回归的线性分类器

逻辑回归是线性分类器的一个特殊情形,但逻辑回归有一个额外的优点:它可以预测样本 xi 为分类「+」的概率 p+:

p+=P(yi=1∣xi,w)=σ(wTx)

首先使用 OLS 构造预测

b(x)=wTx∈R

随后,使用 Sigmoid 函数 将预测值压缩到 [0,1] 区间

σ(z)=11+e−z

# 极大似然估计与逻辑回归

  • 向量 xA→ 与平面 wTx=0 的距离定义为

    ρ(xA,wTx=0)=wTxA∥w∥

    表达式 wTxi 的绝对值越大,点 xi 离平面 wTx=0 的距离就越远。

  • 逻辑损失函数定义为

    Llog(X,y,w)=∑i=1ℓlog⁡(1+exp−yiwTxi)

    用分类边缘 M(xi) 改写损失函数,则有 L(M)=log⁡(1+e−M) 。

# 逻辑回归的 L2 正则化

其正则化过程和岭回归类似,最小化以下等式

J(X,y,w)=Llog(X,y,w)+λ|w|2

在逻辑回归中,一般使用正则化系数的倒数 C=1λ :

w^=arg⁡minwJ(X,y,w)=arg⁡minw(C∑i=1ℓlog⁡(1+exp−yiwTxi)+|w|2)

# 验证和学习曲线

  • 简单模型的训练误差和验证误差很接近,且都比较大。这暗示模型欠拟合,参数数量不够多。
  • 高度复杂模型的训练误差和验证误差相差很大,这暗示模型过拟合。当参数数量过多或者正则化不够严格时,算法可能被数据中的噪声「转移注意力」,没能把握数据的整体趋势。

# 数据对于模型的影响(学习曲线)

  • 事先固定模型的参数,将误差视为训练集样本数量的函数,改变训练集大小,查看模型质量与训练集数据量之间的依赖关系。
  • 对于少量数据而言,训练集和交叉验证集之间的误差差别(方差)相当大,这暗示了过拟合。
  • 同样的模型,使用大量数据,误差「收敛」,暗示了欠拟合。
  • 加入更多数据,该训练集的误差不会增加,且该验证集上的误差也不会下降。
  • 尽管曲线收敛,但学习曲线和验证曲线普遍下移(AUC值下降),同样暗示过拟合。
上次更新: 2021/09/28, 20:57:56
挑战三
挑战四

← 挑战三 挑战四→

Theme by Vdoing | Copyright © 2021-2023 Dragon1573 | CC-BY-SA 4.0
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式