实验七
主成分分析和聚类
主成分分析 PCA
概念
降维
有助于数据可视化
有效地解决维度灾难问题
数据压缩,提升模型训练效率
主成分分析
最简单,最直观,最常用
将数据投影到一个正交特征子空间中
...
挑战六
红酒质量数据回归探索
线性回归
问题:训练数据和测试数据上的平均绝对误差 MSE 值是多少?
mean_squared_error(
y_true=y_train, y_pred=linreg. ...
实验六
特征工程和特征选择
特征提取
在实践中,很少有数据是以矩阵形式保存、可以直接使用的,这就是为什么需要对数据进行特征提取。
文本数据
对英文文本进行 切分词(tokenzie) 操作,
最简单的情形 ...
挑战五
构建信用评分预测分类模型
信用评分预测任务
问题
对于分类问题,可以在统计学函数 pandas.Series.value_counts() 中传入 normalize=True 参数,Pandas ...
实验五
集成学习和随机森林方法
集成
集成(Ensemble) :使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。在集成中,最终的整体输 ...