数据分析一定是针对某一些对象的,就像消费记录针对的是某一店铺。那首先要做的,就是通过数据来描述这一对象。通过研究一些有代表性的群体来了解相关的整个行业,接下来小编给大家具体介绍一下datafocus数据分析究竟是什么?
1、基础统计
统计是最直接的方法,而且应用起来也很简单。常用的方法有总和、平均数、最大最小值、中位数、方差、增长率、类型占比、分布、频率频次等等。这里不多做介绍。
2、聚类
“物以类聚,人以群分”,聚类属于非监督学习,聚类可以将一组数据分成多个类别,每个类别内部的数据相似,但两个类别之间相异。聚类有助于发现数据分布上的特点,可以大量减少分析的数据量。比如在轨迹分析和预测中,通过聚类,我们会发现某个人主要出现在三个地方,宿舍周围、食堂周围、教学楼周围,那么当我们预测他在哪的时候,就可以从对无数经纬度坐标的分析变成对三个地点的分析。
3、特征分析
特征工程是很庞大,正如描述的那样,数据和特征决定了机器学习的上限,而模型和算法只能逼近这个上限而已。特征工程包含了特征提取和特征选择,由于其算法众多且比较复杂,这里不一一介绍。特征分析首先要明确分析的单位,包括时间、空间和类型等等。就像轨迹预测中,分析每十分钟的所在地要比分析每秒钟的经纬度坐标要实际得多,而分析每小时的所在地又太过粗糙。然后就是特征提取,特征提取的算法有很多,线性的PCA(主成分分析)、LDA(线性判别分析)、ICA(独立成分分析),文本的F-IDE、期望交叉熵,图像的HOG、LBP等。特征分析的主要目的是降维、减少冗余,提高存储计算能力。举个不太恰当的例子,比如我们要描述二氧化碳的化学特性,有颜色、气味、酸性、碱性、氧化性、还原性、热稳定性等等,同样一氧化碳也一样,那这时候我们把这些特性降维到C和O上,那么认为由C和O的组成的一氧化碳和C和2个O组成的二氧化碳有相似的特性,都是无色无味的气体。
现在大家对datafocus数据分析有所了解了吗?希望小编今天介绍的内容能够帮到大家,如果还有问题欢迎咨询网站老师。
Comments | NOTHING