随机梯度下降和独热编码

随机梯度下降

一种优化算法，理解简单
复杂模型或数据上难以获得较好的优化效果
向函数切线下降方向移动，能更快地找到函数的极小值（极小是局部最小值）
损失函数：
$S E (w_{0}, w_{1}) = \frac{1}{2} \sum_{i = 1}^{n} (y_{i} - (w_{0} + w_{1} x_{i}))^{2} \to min_{w_{0}, w_{1}}$
偏导数，其中 $η$ 为学习率：
$\begin{array}{r} w_{0}^{(t + 1)} = w_{0}^{(t)} - η \frac{\partial S E}{\partial w_{0}} |_{t} = w_{0}^{(t)} + η \sum_{i = 1}^{n} (y_{i} - w_{0}^{(t)} - w_{1}^{(t)} x_{i}) \\ w_{1}^{(t + 1)} = w_{1}^{(t)} - η \frac{\partial S E}{\partial w_{1}} |_{t} = w_{1}^{(t)} + η \sum_{i = 1}^{n} (y_{i} - w_{0}^{(t)} - w_{1}^{(t)} x_{i}) x_{i} \end{array}$
每次迭代仅用一些小样本来进行运算，然后迭代更新权重，极大的提高了计算效率
一小批数据并不一定等同于整体数据，其梯度与整体数据可能不同，需要更多次迭代才能收敛
在随机梯度下降方法中，随着迭代次数的增加，权重的更新方向会更难预测

核心思想：将训练数据集 $(X, y)$ 存储在电脑的硬盘中而不将其加载到运行内存中，然后在训练模型时逐个读取，并更新模型的权重： $\begin{array}{r} w_{0}^{(t + 1)} = w_{0}^{(t)} + η (y_{i} - w_{0}^{(t)} - w_{1}^{(t)} x_{i}) \\ w_{1}^{(t + 1)} = w_{1}^{(t)} + η (y_{i} - w_{0}^{(t)} - w_{1}^{(t)} x_{i}) x_{i} \end{array}$

sklearn 提供了 sklearn.linear_model.SGDClassifier 和 sklearn.linear_model.SGDRegressor 实现随机梯度下降分类和回归。