首页 首页 大数据 大数据分析 查看内容

用降维方法解读数据分析

木马童年 2019-7-9 22:47 164 0

img wp-image-21807= src=http://img.duozhishidai.com/9439d1d28f48d2bf68faf3fd56b9cb3b.jpg width=499 height=375 alt=用降维方法解读数据分析 _src=http://img.duozhishidai.com/9439d1d28f48d2bf68faf3fd56b9cb ...

788cf5f928e41cf1c8af3e071a148aca.jpg

1. 主成分分析

主成分分析(PCA:Principal Component Analysis)是最常用的线性降维方法,它是通过正交变换将高维的数据映射到低维的空间中,并期望在所投影的维度上达到数据方差最大的效果。主成分分析在降维时只需要保留前m(m<n)个主成分便可提取出最大的数据信息量。在做主成分分析时,有以下两点需要注意:1)由于主成分变换时对正交向量的尺度敏感,因此变换前需要做归一化处理;2)进行变换之后可能会丧失数据的解释能力,因此在分析之前首先应当权衡一下数据解释能力的重要性。

d5ba9979cf649bb48351e56fe684d652.jpg

2. 反向特征消除

在这个方法中,每进行一次降维操作,都采用n-1个特征对分类器训练n次,得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。并且不断地对该过程进行迭代,最终便可得到降维后的结果。

3.前向特征构造

前向特征构建与反向特征消除是互逆过程。前向特征从1个特征开始构造,每次进行训练时,都会添加一个让分类器性能幅度提升最大的特征。由于前向特征构造和反向特征消除操作起来较为耗时,因此它们通常用于输入维数相对较低的数据集。

da08099f5445109f6f842c31fd054c08.jpg

4. 缺失值比率

当一组数据存在太多缺失值导致有用的信息较少时,可以用到缺失值比率这一方法来进行降维,可以把数据列中缺失值大于某个阈值(可自行设定)的列去掉。阈值越高,降维方法则会更便捷,降维越少。

e2e845654c35e50b98ca83041ee0f559.jpg

5. 高相关滤波

高相关滤波的原理是:当两列数据的变化趋势相近时,它们所包含的信息也相似。这样一来,相似列中的其中一列便可满足机器学习模型。数值列之间的相似性可以通过计算相关系数来表示,名词列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。由于其相关系数对范围敏感,所以同主成分分析类似,在计算之前也需要对数据进行归一化处理。


在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据分析
0
为您推荐
怎样判断一个人是否适合做数据分析?

怎样判断一个人是否适合做数据分析?

网友问:部门要找几个人做数据分析。现几个人原来是在不同的岗位上的,以前没有做过数…...

如何提高你的数据分析能力?

如何提高你的数据分析能力?

第一步:数据准备:(70%时间)获取数据(爬虫,数据仓库)验证数据数据清理(缺失值、孤立…...

人工智能、机器学习、数据挖掘以及数据分析有什么联系?

人工智能、机器学习、数据挖掘以及数据分析

   人工智能是目前炙手可热的一个领域,所有的互联网公司以及各路大迦们纷纷表态人…...

数据分析入门:数据分析有什么用?该怎么做?

数据分析入门:数据分析有什么用?该怎么做

  在学习数据分析之前,首先需要明确两个问题:   1. 数据分析有什么用?   …...

如何成为一名合格的数据科学家,实现自己的数据科学梦

如何成为一名合格的数据科学家,实现自己的

 数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你…...