降维是将高维数据集转换为可比较的低维空间的过程,真实的数据集通常有很多冗余特征,降维技术可用于去除这些冗余特征或将n维数据集转换为2维或3维进行可视化。
在本文中,我们将讨论8种降维技术,它们可以用于各种用例来降低数据集的维度。
1.
真实的数据集通常包含大量缺失记录,这可能是由于记录数据时数据损坏或保存失败造成的我们可以尝试各种数据插补技术来填补缺失的记录,但这仅在特征缺失数量有限时有效
如果缺失特征值的数量大于指定的阈值,则最好从训练数据中删除该特征我们可以删除所有缺失特征记录大于阈值的特征,从而降低数据的维度
缺失值的可视化:白线表示存在缺失值
上述缺失值解释图像是使用themissingno包为titanic数据生成的特征,Age,和,Cabin,有大量缺失记录,最终,它们可以从训练样本中去除
2.相关性滤波器
一个或多个特征的相关性较高说明其具有相似的变化趋势且可能包含相似的信息,它会破坏自变量的统计显著性,我们可以删除与其他独立特征相关的特征,还可以删除与目标类标签不相关的特征。
有多种技术可以计算独立特征之间的相关性,包括 Pearson,Spearman,Kendall,卡方检验等。
相关矩阵的热图
上述相关矩阵热图是使用df.corr函数计算的。
3.方差滤波器
只有一个特征类别的分类特征或方差很小的数值特征变量,这些特征不会对我们的模型有一定的提升,可以从训练样本中删除。
函数DataFrame.var可以计算 Pandas 数据帧的所有特征的方差DataFrame.value_counts函数可以计算每个特征的分布
4.前向/后向特征选择
前向特征选择技术是一种选择最佳特征集的包装技术这是一个循序渐进的过程,特征是根据上一步的推断来选择的
1.使用每个特征分别训练机器学习模型,并测量每个模型的性能。
2.获取性能最佳的特征并使用其余特征重新训练单个模型。
3.重复这个过程并一次添加一个特征,产生性能最佳的特征被保留。
4.重复步骤 2 和 3,直到模型的性能没有明显的改善。
前向特征选择
后向特征选择技术类似于前向特征选择,但工作方式正好相反,最初选择所有特征,并在每一步中删除最冗余的特征。
5.主成分分析
主成分分析 是一种非常古老的降维技术PCA 通过保留特征的方差将特征向量投影到低维空间,它找到最大方差的方向以获得最佳特征列表PCA 可用于将非常高维的数据投影到所需的维度
标准化数据集 计算标准化数据集的协方差矩阵 计算协方差矩阵的特征值和特征向量 取特征向量与具有高特征值的特征向量的点积。 6.t—SNE
t—SNE是一种降维技术,主要用于数据可视化t—SNE将高维的数据集转换为可以进一步可视化的二维或三维向量
t—SNE 的性能优于 PCA,因为它保留了数据的局部结构,并通过保留邻域局部结构将每个数据点从较高维度嵌入到较低维度空间。
7.UMAP
UMAP是一种新的降维技术,它是一种非常有效的可视化和可伸缩降维算法,其工作方式与 t—SNE 类似,但是它保留了更多全局结构,具有优越的运行性能,更好的可扩展性。
8.自动编码器
自动编码器是一种基于单层感知器的降维方法它有两个组成部分:压缩和扩展输入层和输出层的节点数量相同,而中间层的神经元数量少于输入层和输出层
数据集被传递到自动编码器神经网络模型,并被编码到较低维度的隐藏层然后它尝试从简化的编码中生成尽可能接近其原始输入的表示中间层是减少到可比较的较低维度的向量
总结
在本文中,我们讨论了基于特征选择的降维方法,基于组件的降维技术,基于投影的方法,最后是基于神经网络的自动编码器ISOMAP 是另一种基于投影的降维方法,其工作方式类似于 UMAP 和 t—SNESVD 和 ISO 是其他一些基于组件的降维技术
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。