我们都知道,数据分析的基础是数据,没有数据,一切都是空口白话。但基本上大多数人都是拿到数据就开始直接使用,你是否检查了你的数据?

在利用可视化工具,比如DataFocus,进行数据分析之前,对你所收集或者即将收集的数据的质和量进行检查是非常有必要的。data.world的数据科学家和知识工程师Jonathan Ortiz曾说过“你的工程中大部分的时间,通常是80%的时间,将用于获取和清洗数据”。也就是说,数据分析的时间仅占20%,更多的时间应该放在前期准备。

举一些简单的例子说明一下数据的重要性。假如你正在收集数据,比如利用问卷的形式收集,人们对于问卷中的题目可能是随意作答的,并不是认真仔细问答,这时你就应该注意,过滤掉这些随意作答的问卷,保留有效问卷,至少若是一张问卷的所有问题都选择同一个答案的,无疑是一张废卷;接下来是记录的时候,可能因为不同人员记录的方式不同而出现前后不一致的情况,更加普遍的是,你可能会出现记录错误;再然后是网上下载的数据,若数据中某一列全是缺失值,则这一列也就无法进行分析;最后是当你的数据量过低或是独立变量太多的情况下,也很难利用数据可视化工具进行数据分析。“数据量越大、数据科学工具的效果就越好,预测模型就越强大。因为交易利率很低,所以独立的变量会对交易造成较大影响。不够大的数据集和复杂的相互作用削弱了预测模型的力量。

在进行数据分析之前,你必然是对你的分析结果有一定的预估,但若是出现了违反你预估的情况,不能盲目认为是你的预估出现了问题,也可能是数据存在错误。因此必须对数据进行更加仔细的探索。如果事先进行一些探索,你就可以自信的将这些数据分析结果呈现给需要的人看,而不会感到忐忑不安。

标签: , , ,
版权声明:除非注明,否则均为DataFocus企业大数据分析系统 原创文章,转载请以链接形式标明本文地址。否则将追究法律责任。
转载请注明来源:https://www.datafocus.ai/25858.html
上一篇:
下一篇: