作为统计专业出身,学习数据可视化是必不可少的。第一次接触可视化是在大三上学期,学校特意在我们有了一定的统计基础和编程能力的情况下,开设了一门数据可视化的课程。这门课程的主要学习内容是利用SPSS、R语言编写程序,绘制出一些简单的统计图形,比如箱线图,散点图,热力图等等,并根据得出的结果,整理成一份可视化报告。
上图是一张利用DataFocus制作的可视化大屏。
今天呢,主要是想通过自己的理解,结合所学的内容,简单整理出一些关于数据可视化的流程。数据可视化的主旨是借助于图形化手段,清晰有效地传达与沟通信息。简单理解,就是将原本枯燥繁琐的数据,用更加生动形象且常人容易看懂的图形化方法表达出来。
这里给出的步骤不是手把手教大家如何得出最终的可视化结果图,而是一种非常普遍适用的方法论。
可视化基本流程
可视化流程的基本步骤,就好像一个特殊的流水线,主要步骤之间彼此相互作用、相互影响。
可视化流程的基本步骤,用文字表达就是:确定分析目标——收集数据——数据处理——数据分析——可视化呈现——结论建议。而我们可以将可视化基本流程中的主要内容分成三大部分:采集、处理、分析,其中最重要的则是分析部分。
首先是确定分析目标。根据现阶段的热点时事或社会较关注的现象,确定此次可视化的目标,并根据这个目标,进行一些准备工作,比如设计贴合目标的问卷。
接下来是数据收集。依照第一步制定的目标,进行数据收集,可以直接从数据网站中下载所需的数据,也可以通过发放问卷、电话访谈等形式直接收集数据。
其次是数据处理。对第二步收集来的数据进行一些预处理,比如筛去一些不可信的字段,对空白的数据进行处理,去除可信度较低的问卷等。
最主要的是数据分析。这是可视化流程的核心,将数据进行全面且科学的分析,联系多个维度,根据类型敲定不同的分析思路,对应各个行业等等。这里就不一一详细介绍了。
最后是可视化呈现和提出结论建议。用户对最后呈现的可视化结果进行观察,直观的发现数据中的差异,从中提取出对应的信息,帮助公司运营提出科学的建议等。