数据准备可能是任何类型的严肃数据分析中最重要的步骤。虽然在文章中尝试涵盖如此广泛的知识领域是荒谬的,但我们准备了一个快速列表,您可以在准备分析数据时进行检查。希望这有助于您优化分析过程的数据准备,并确保涵盖所有重要的步骤和基础。

什么是数据准备过程?

根据Aberdeen Group的报告,数据准备“是指旨在提高数据质量,可用性,可访问性或可移植性的任何活动……数据准备的最终目标是为人员和分析系统提供清洁。消耗性数据。转化为可操作的见解。 “这可能包括一系列流程,但我们将专注于数据集成,数据分析,数据清理和数据治理。

开始之前:定义业务问题

我们已经写了在采集过程中要问的问题,但作为一般指导原则 – 任何类型的数据分析都要从熟悉您要回答的业务问题和您想要衡量的KPI开始。

深入了解业务需求将使您能够将这些需求映射回您希望将来执行的数据和分析类型,而不了解业务预期会导致大量浪费的时间和精力 – 所以不要跳过这一步!

一旦掌握了业务预期作为分析的最终产品,您将需要开始深入研究数据。你要做的第一件事就是找到它。

1.数据在哪里?

第一组问题涉及企业数据存储的物理位置。对于小型部署,这可以像一系列电子表格一样简单;对于较大的数据库,您可能正在查看多个数据库,Hadoop数据湖,云源或数据仓库(在数据库,数据集市和数据仓库之间学习)的差异)。

您还需要知道您是否具有访问数据所需的权限,以及您要处理的数据的类型或格式。

你想在这个阶段提出的问题是:

我的公司使用哪些数据源?

我是否拥有访问数据所需的权限或凭据?

每个数据集的大小是多少,我需要从每个数据集中获取多少数据?

我对每个数据库中的基础表和模式有多熟悉?

我是否需要所有数据进行更精细的分析,还是需要一个子集以确保更快的性能?

由于差异,数据是否需要标准化 – 例如,将SQL数据库中的数据与MongoDB等NoSQL源相结合?

我是否需要分析企业数据存储之外的外部数据?

2.您需要更改数据吗?

通常需要手动转换或操作数据以进行有效分析。当各种表单或数据集对相同信息使用不同格式,数据不一致或包含重复信息,或者您希望以新方式对数据进行分组时,这可能是相关的。

这是你想问的问题:

对于每个单独的来源 – 它是完整的吗?准确?最新?

在当前状态下,我可以使用数据来回答我的业务问题吗?

如果存在不一致或冗余值,我需要做些什么来清理数据?是手动更改某些值还是更系统化的方法?

我的工具可以连接到原始数据,以便我可以执行数据发现或高分辨率探索吗?

我可以更改原始位置的数据,还是需要在辅助环境中进行更改(例如,您无权更改生产数据)?

3.您将如何连接数据?

如果您使用许多不同的数据源和表,则需要对数据建模,以便仪表板用户可以通过连接不同表中的相关字段来快速接收即席查询的答案。数据模型中各个实体之间的关系将决定您的未来分析可以回答的查询类型及其效率。

先问:

连接这些字段会发生什么?您将希望避免多对多关系。

我的数据模型会扩展吗?

在未来的道路上添加数据源并对模型进行更改有多容易?

我们可以简化关系而不影响性能吗?请注意,这可能取决于您使用的数据准备和分析工具。

4.您是否需要进一步整合数据?

对于某些类型的更复杂的分析,您可能希望在现有表单的基础上创建新表单。这方面的一个例子可以是漏斗分析,您可以在其中获取有关正在进行的多阶段流程的基本信息,并创建将对各种记录进行排序的存储桶。

可以帮助您了解您是否准备就绪的问题示例包括:

我是否需要为我想要执行的分析类型创建汇总表?

我是否需要将表格中的数据与内部或外部联接一起使用,或者将这些表组合起来创建一个新表?

5.您将如何导入数据?

虽然在某些情况下您可以通过查询生产数据库来创建报告和分析,但大多数BI工具和实现依赖于在辅助环境中创建数据,辅助环境将用作分析数据库。

您想问的问题包括:

本地或云服务器是否会移动我的数据以拥有足够的软件和硬件来处理我正在处理的数据量?两者都有些依赖,因为合适的软件可以降低硬件成本。

我多久需要导入一次数据?这取决于原始数据变化或增长的速率。

导入数据如何影响我的生产环境?

6.如何验证结果?

在您自豪地宣布数据准备工作完成之前,您需要确保最终结果是准确的,并且您在此过程中没有犯任何错误。

要验证您的数据,请提出以下问题:

它是否在一般水平上有意义?

我看到的措施是否符合我对业务的理解?

我的分析环境中的计算是否返回与手动对原始数据执行的相同计算相同的结果?

开始分析!

完成上面的整个列表后,您将识别数据,转换数据,构建数据模型,将数据移动到分析数据库并验证结果。这可能是数小时,数天或更长 – 取决于您使用的数据量及其复杂程度。而使用一些高效易用的数据分析工具无疑可以很好的起到一个助力效果,这里推荐一款新生代的数据分析系统DataFocus。DataFocus是由一群热衷于技术的极客倾情三年打造的智能数据分析系统。DataFocus是个数据分析的多面手,你可以把他当作下一代BI系统,或者创新的报表分析工具使用,它包含了传统商业智能软件系统所具备的全部功能,她的智能数据分析功能可以针对较高维度的大数据集展开分析,并生成智能诊断报告,在此基础上,专家版产品还提供了机器学习开发平台。可接入主流的关系型数据库和基本数据文件,还支持多维数据库和大数据库的连接,丰富的数据预处理操作与图形化操作界面实现您的各类需求。

标签: , , , , , , , , ,
版权声明:除非注明,否则均为DataFocus企业大数据分析系统 原创文章,转载请以链接形式标明本文地址。否则将追究法律责任。
转载请注明来源:https://www.datafocus.ai/20537.html
上一篇:
下一篇: