首页 首页 大数据 大数据分析 查看内容

大数据分析的4个核心概念

木马童年 2019-2-13 14:25 5 0

K―平均算法K―平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇,使得每个簇内具有较高的相似度。在应用该算法进行数据分析时,首先应输入包含M个对象的数据集A以及簇的数目N。从A中任意选择 ...

大数据分析的4个核心概念

K―平均算法

K―平均算法是一种得到广泛应用的基于划分的聚类算法。其把M个对象分为N个簇,使得每个簇内具有较高的相似度。

在应用该算法进行数据分析时,首先应输入包含M个对象的数据集A以及簇的数目N。从A中任意选择N个对象作为初始簇中心并且不断重复,随后计算出簇中对象的均值,将每个对象分配到最相似的簇并且不断更新簇均值,最后计算准则函数直到其不再发生变化为止。因为该算法的复杂度大约是0(nkt),所以该算法在处理大数据集时是相对可伸缩的和高效率的。

奇异值分解

假设A是一个mn阶矩阵,其中的元素全部属于实数域或复数域。如此则存在一个分解使得A=UV*。其中U是mm阶酉矩阵,Σ是半正定mn阶对角矩阵,而V*是nn阶酉矩阵的共轭转置矩阵。这样的分解就称为A的奇异值分解。

在MATLAB仿真软件中计算奇异值分解的函数式为:[b.c.d]=svd(x)

主成分分析(PCA算法)

从宏观上来说,主成分分析是指在研究一项变量较多的课题时,将这些变量通过线性变换而简化为几个重要变量的一种多元统计分析方法。而在数据分析领域,主成分分析的主要作用是对大规模的数据集进行分析与简化。其主要体现在降低数据集的维数,同时尽可能保持数据集中的对所研究的问题最有价值的特征。简而言之,就是保留低阶主成分,忽略高阶主成分。其具体方法是通过对协方差矩阵进行特征分解,从而得出数据的特征向量与特征值。主成分分析在数学上可以理解为一个正交化的线性变换,把数据整体变换到一个新的坐标系中,使得这一数据的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次类推。

决策树学习

从广义上讲,决策树是一种运用图解法的概率分析,即在已知各种事件发生概率的基础上,通过构建决策树来探究期望值大于等于零的概率,同时判断可行性的决策分析方法。

决策树学习是数据分析领域常用的方法,其目的是构建一个模型来预测样本的目标值。一棵决策树的训练就是依据一个既定指标,将训练数据集分为几个子集并且在所产生的子集中不断重复此方法的过程,直到一个训练子集的类标都相同时为止。决策树主要有两种类型:分类树和回归树。其中分类树的输出是样本的类标,而回归树输出的是一个实数。决策树的优点体现在即可以处理数值型数据也可以处理类别型数据,并且适合处理大规模数据。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据分析 数据集 统计分析 决策树学习 决策树
0
为您推荐
移动触屏网站产品数据分析关注点与优化

移动触屏网站产品数据分析关注点与优化

随着智能手机,3G,4G网络的普及,很多网站除了网站,App外,还会推出为智能手机优化…...

避免这7个数据错误,让你的数据分析更有效率!

避免这7个数据错误,让你的数据分析更有效

数据正在成为现代企业的一个更重要的工具,几乎可以作为一种货币,它可以从衡量营销活…...

怎样判断一个人是否适合做数据分析?

怎样判断一个人是否适合做数据分析?

网友问:部门要找几个人做数据分析。现几个人原来是在不同的岗位上的,以前没有做过数…...

巧用大数据破解运营中最大的信息不对称问题

巧用大数据破解运营中最大的信息不对称问题

前两天看到一份有趣的大数据报告——《“宅一族”学习类App使用时长增幅近两倍,他们…...

从大数据到大分析,口碑比过去更有力

从大数据到大分析,口碑比过去更有力

口碑就是力量。你的口碑会决定你交谈的对象,以及他们会和你一起做或为你做的事。口碑…...

相学习数据分析,应该从什么编程语言学起?

相学习数据分析,应该从什么编程语言学起?

很多时候,当和人们讨论怎么开始学习数据科学,一个疑惑总是出现在我们面前:我不知道…...