「大数据时代」如何该避免这四个数据分析陷阱

文章目录[隐藏]

陷阱1:用浅显的数据进行深度学习
陷阱2:在没有完全理解的情况下使用开源高级算法
陷阱3:没有正确执行样本外测试
陷阱4:在技术开发之前不理解数据

在强大的开源软件和更廉价、更快的数据存储解决方案的推动下，数据科学快速发展。大学也适应了日益增长的需求，正以前所未有的速度毕业经过分析训练的学生。这一进化为许多公司和个人开辟了新的和创新的道路，使他们在底线上有所作为。然而，随着这种快节奏的发展，一些典型的陷阱也在增加。通过了解这些缺陷和避免它们的方法，您可以利用数据科学的创新，帮助您的企业发挥其最大的数据来源潜力。

陷阱1:用浅显的数据进行深度学习

随着计算能力的提高，深度学习模型(如神经网络)的使用呈指数级增长，我们现在有能力运行非常复杂的算法来分析数据集。

应用高级的深度学习模型对于可用数据来说太复杂，很容易导致过度拟合的经典问题。虽然它可能在一个估计的示例中提供一个强大的结果，但是当您在初始示例之外应用它以供实际使用时，它可能会失控。简单地说，当您使用一种对于您试图解决的问题来说太复杂的方法时，您将得到错误的答案。

为了防止过度拟合，您的模型必须将信号从噪声中分离出来，以便它能够忽略原始样本中的随机性，并证明在实际应用中它不会受到随机性的影响。

陷阱2:在没有完全理解的情况下使用开源高级算法

开放源代码神经网络的普及帮助推动了数据科学领域的发展，使更多的人能够使用新的、高度先进的工具。当缺乏经验的数据科学家有足够的开源知识来使用这些工具，但没有足够的知识来有效地使用它们时，这就成了一个问题。

知道如何使用代码调用神经网络函数，而不知道如何准备数据和操纵神经网络的输入，将无法得到您试图解决的问题的正确答案。虽然学习如何使用代码调用神经网络的函数相对容易，但是理解如何最好地使用这些函数进行数据分析既是一门艺术，也是一门科学，这需要经验。

在使用这些函数时，您必须正确地操作输入，选择问题的正确方法，通过理解方法如何解释数据仔细地解释结果，然后迭代神经网络的训练以适应您的数据。处理您试图最优解决的数据和业务问题的艺术与评估方法的科学相结合。这将得到您需要的结果，而不是依赖于标准化的开源函数的简单调用。

陷阱3:没有正确执行样本外测试

我们看到的另一个典型的陷阱是行业的崛起。正如大多数数据科学家所知道的，无论你使用的是开源神经网络还是其他任何统计模型，在模型从未见过的数据上测试模型是很重要的。很多方法是通过从可用数据中随机选择一部分来留出测试数据集。对于许多传统的统计方法来说，这可能已经足够好了，但是深度学习方法的强大功能却常常导致不正确的输出。

为了避免这种陷阱，可以在实际的样本外数据集或保持数据集上运行一系列模拟，并使用不同的测试集和训练集混合，以确保您的模型能够正确地概括结果。

陷阱4:在技术开发之前不理解数据

这很可能是最大的陷阱。与运行复杂的算法和研究输出相比，数据准备工作通常被认为是一项枯燥的任务。许多可用的工具为数据分析和预测提供了不同的特性工程选项和后续算法。有了这些先进的工具，你可以利用机器学习来描述过去发生的事情和将来会发生的事情。现在只需要使用即插即用的标准数据特性工程选项，调用一个神经网络来分析你的数据就可以了。这里的陷阱是在使用这些可用的工具之前，您必须理解您的数据。如果您不理解这些数据，那么您可能会选择错误的工具或错误的输入，从而导致错误的、非最佳的结果。

在开发算法之前深入了解数据，您可以找到正确的输入并构建正确的算法，以找到您正在寻找的解决方案，该解决方案将为您提供回答您想问的问题的输出。然后，您可以更好地转换数据并匹配特定的算法，以获得所需的结果。

更多的方法可以避免陷阱，并从数据分析中获得最大的收益。

这里列出的缺陷通常是由于缺乏在快速发展的领域中使用当前方法和工具的经验。如果您正在构建一个数据科学组织，您可以通过将缺乏经验的数据科学家与那些更精通数据科学的人配对来缓解这一问题。与经验丰富的导师一起动手工作，可以快速学习。这确保顶级学术人才能够迅速适应您的特定业务数据、需求和应用程序，成为专注于通过机器学习创造价值的激光。

在构建数据科学组织时，您还应该雇佣专门的功能团队成员，而不是万事通。数据清理、数据可视化、人工智能算法的创建都是深度领域，找一个专门从事某一领域的人比找一个对各个方面都有基本知识的人更有效。

当您利用新技术时，数据分析和决策科学为您的业务开辟了新的知识层次。它可以提高生产力和盈利能力，让你有新的发现，用新的证据来支持旧学派的直觉。