不同质量的大数据对数据分析的影响

如果你认为有了大数据,你就会施展魔法,轻松提升业务,脱掉斗篷扔掉魔杖,因为大数据不是魔法。但是,如果你卷起袖子,做一些清洁,这可能做把戏,并帮助你实现一个惊人的业务结果。

大数据确实很强大,但不是太完美。本文表明,它提出了多种挑战,数据质量就是其中之一。许多企业认识到这些问题,并求助于大数据服务来处理这些问题。但是,如果大数据永远不是 100% 准确,他们为什么要这么做呢?大数据质量有多好?你会发现

7923-predictive-513087873-180201-1-srgb

如果您使用质量差的大数据,该怎么办?

相对低质量的大数据可以是极其有害的或不是那么严重。下面是一个示例。如果您的大数据工具分析您网站上的客户活动,您当然会想知道真实情况。你会的但是,仅仅为了看到大局,就没有必要保留 100% 准确的访客活动记录。事实上,这甚至无法实现。

但是,如果您的大数据分析监控来自医院心脏监测器的实时数据,则 3% 的误差幅度可能意味着您未能挽救某人的生命。

所以,这里的一切都取决于一个特定的公司。有时甚至在特定任务上。这意味着,在匆忙将数据推至尽可能高的精度之前,您需要停下来一会儿。首先,您应该分析您的大数据质量需求,然后确定您的大数据质量应该有多好。

数据质量究竟如何?

为了区分坏或脏数据与好或干净,我们需要一套标准来参考。不过,您应该注意,这些数据质量总体上适用于大数据质量,而不只与大数据关联。

在数据质量方面有许多标准集,但我们选择了5 个最重要的数据特征,以确保您的数据是干净的。

  1. 一致性
    - 逻辑关系 在相关数据集中,不应有不一致之处,如重复、矛盾、差距。例如,不可能为两个不同的员工提供两个类似的 ID,或者在另一张表格中提及不存在的条目。
  2. 准确性 - 事物
    的真实状态 数据应该是精确、连续的,并且应该反映事物的真实情况。基于此类数据的所有计算都显示真实结果。
  3. 完整性- 所有
    需要的元素您的数据可能由多个元素组成。在这种情况下,您需要拥有所有相互依存的元素,以确保数据能够以正确的方式进行解释。示例:您拥有大量传感器数据,但没有关于传感器位置的信息。这样,您就无法真正了解工厂的设备是如何"表现"的,以及是什么影响了这种行为。
  4. 审计能力- 维护
    和控制数据本身和数据管理过程的整体应组织的方式,您可以定期或点播进行数据质量审计。这将有助于确保更高的数据充足性水平。
  5. 有序性- 结构
    和格式 数据应按特定顺序组织。它需要遵守您关于数据格式、结构、足够值范围、特定业务规则等的所有要求。例如,烤箱中的温度必须用华氏度测量,不能为 -14 °F。

* 如果你很难记住标准,这里有一个规则,可能会有所帮助:他们所有的第一个字母在一起使单词'cacao'。(Consistency、Accuracy、Completeness、Auditability、Orderliness)

大数据质量有什么不同吗?

如果严格地说大数据,我们必须注意:并非所有这些标准都适用于大数据,而且并非所有标准都是 100% 可以实现的。

一致性的问题在于,大数据的特定特性首先允许"噪音"。大数据的庞大体积和结构使得删除所有数据变得困难。有时候,它甚至是不必要的。但是,在某些情况下,您的大数据必须建立逻辑关系。例如,如果银行的大数据工具检测到潜在的欺诈(例如,您在亚利桑那州居住期间在柬埔寨使用您的卡)。大数据工具监控您的社交网络。它可以检查你是否在柬埔寨度假。换句话说,它涉及到来自不同数据集的关于您的信息,因此需要一定程度的一致性(您的银行帐户和社交网络帐户之间的准确链接)。

而在社交网络中收集对特定产品的意见时,重复和矛盾是可以接受的。有些人可能有多个帐户,并在不同的时间使用它们,在第一种情况下说,他们喜欢的产品,在第二种情况下,他们讨厌它。为什么还好?因为在大规模上,它不会影响您的大数据分析结果。

关于准确性,我们已经在文章的前面概述了它的水平因任务而异。想象一下情况:您需要分析上个月的信息,价值 2 天的数据会消失。没有这些数据,您就无法真正计算任何准确的数字。如果我们谈论的是电视广告的观点,它就没那么重要了:如果没有它们,我们仍然可以计算月平均值和趋势。然而,如果情况更严重、更复杂的计算或需要详尽的历史记录(如心脏监测仪),不准确的数据可能导致错误的决定,甚至更多的错误。

完整性也不是一件太让人担心的事情,因为大数据自然会带来很多差距。不过没关系。在同一情况下,当2天的数据消失时,我们仍然可以得到体面的分析结果,因为大量的其他类似数据。即使没有这个微不足道的部分,整个情况仍然足够。

至于可审计性,大数据确实为它提供了机会。如果你想检查你的大数据质量,你可以。不过,您的公司需要时间和资源。例如,创建脚本来检查数据质量并运行这些脚本,由于数据量大,这些脚本的成本可能很高。

现在到秩序。您或许应该为数据中的某种程度的"可控混乱"做好准备。例如,数据湖泊通常不太关注数据的结构和价值充分性。他们只是储存他们得到的东西。但是,在数据被加载到大数据仓库之前,它通常会经过清洗程序,这可能会部分确保数据的有序性。但只是部分。

保持"杂乱"还是"整洁"?

如您所见,这些大数据质量标准均不严格或适合所有案例。并定制您的大数据解决方案,以满足所有这些最充分可能:

  • 花费巨大
  • 需要大量的时间。
  • 缩小系统的性能。
  • 是相当不可能的。

这就是为什么一些公司既不追求干净的数据,也不停留在肮脏的数据。他们带着"足够好的数据"去。这意味着他们设定了最小满意的阈值,这将给他们足够的分析结果。然后,他们确保他们的数据质量始终高于它。

如何提高大数据质量?

在决定大数据质量策略和执行任何其他数据质量管理程序时,我们有 3 条经验法则供您遵守:

规则1:对数据源要谨慎。数据源的可靠性等级应该特定,因为并非所有数据源都承载着同样体面的信息。应始终验证来自开放或相对不可靠的来源的数据。这样一个可疑数据源的一个很好的例子是社交网络:

  • 不可能追踪社交媒体上提到的特定事件发生的时间。
  • 您无法确定上述信息的来源。
  • 算法可能难以识别用户帖子中传达的情绪。

规则2:组织适当的存储和转换。如果您想要良好的数据质量,您的数据湖泊和数据仓库需要得到照顾。当数据从数据湖传输到大数据仓库时,需要建立相当"强大"的数据清理机制。此外,此时,您的数据需要与任何其他必要的记录匹配,以达到一定程度的一致性(如果需要的话)。

规则3:定期进行审计。这个我们已经覆盖了, 但它值得额外的关注。数据质量审核与对大数据解决方案的任何审计一样,都是维护流程的重要组成部分。您可能需要手动和自动审核。例如,您可以分析数据质量问题并编写定期运行的脚本并检查数据质量问题区域。如果您在此类事务方面没有经验,或者如果您不确定自己是否拥有所有所需的资源,您可以考虑外包您的数据质量审核。

你明白了吗?

数据质量问题是一个复杂的大数据问题。下面是回顾要点的捷径:

问:如果您使用质量差的大数据,该怎么办?

答:这取决于您的域名和任务。如果您不需要高精度,它可能会对您产生轻微的影响,但如果您的系统需要非常准确的数据,它也可能非常危险。

问:什么是良好的数据质量?

答:大数据质量有5个"cacao"标准。但是它们并不适合所有人。每家公司必须决定所需的每个标准(总体和特定任务)的级别。

问:如何提高大数据质量?

答:对数据源要谨慎,组织好存储和转换,进行数据质量审核。

  • 微信-二维码
立即体验大数据分析工具 DataFocus
免费体验,内置100+分析模版供你体验
立即使用