1. 数据分析网首页
  2. 大数据

纸上得来终觉浅!70% 大数据初学者做错的事情

企业数据科学仍然是一个新领域。许多学者还没有为真正的企业解决实际问题。因此,他们以与数据和业务环境分离的方式教授教科书算法。这可以在智力上很有趣。但是,如果学生认为这些课程能够很好地为数据科学家工作,那么他们就错了。

作者 | Dan Becker

我大部分时间都在大学里积极寻找艰苦而有用的课程。但是,我在最后一年累了,我想休息一下。于是我就去参加了一个名为“航海物理学”的工程系的“有趣”课程。

我们描绘了允许帆船比风速更快的力量。我们了解了船的形状如何使其稳定或不稳定。我已经比大多数同学接受了更多的物理学习。所以,家庭作业上我做得很好,还在想如果我去航海,这一切都会很自然。

我在学期结束时测试了这个假设,当时我的班级去了小马斯科马湖尝试在真正的船上航行。它没有像我预期的那样发展。

纸上得来终觉浅!70% 大数据初学者做错的事情

在Mascoma湖上的船。他们并不像看起来那么温柔。

船只感觉很笨,而且我对浮力和“扶正武器”的了解并没有把我留在船上。需要协调多个动作。当我把时间错误时,一个两米长的金属杆(称为吊杆)转过身来,让我在脑袋里嘀咕。我头上的吊臂发出噼啪声,每次都让我的耳朵响几分钟。

帆船的物理学很有趣,但显然它们并没有帮助你真正航行。

这与数据科学有什么关系?

就像我学习帆船的物理学而不学习航行一样,大多数数据科学课程都会详细介绍几种算法,同时掩盖成功的数据科学项目所需的技能。

企业数据科学仍然是一个新领域。许多学者还没有为真正的企业解决实际问题。因此,他们以与数据和业务环境分离的方式教授教科书算法。这可以在智力上很有趣。但是,如果学生认为这些课程能够很好地为数据科学家工作,那么他们就错了。

那么,如何将精力集中在几乎重要的技能上呢?以下是一些指导原则:

  1. 使用标准的开源库。实用数据科学依赖于经过充分记录,经过良好测试并具有良好设计API的库。自己实现替代版本是一个复杂性(和错误)的来源,它会分散您对数据和模型应用的上下文的注意力。
  2. 花更多时间查看数据并将其操作为您需要的格式。大多数项目涉及大量数据操作和相对较少的模型调整。目前正在招聘的朋友告诉我,许多求职者可以描述算法,但绝大多数人缺乏Pandas技能来提高实际工作的效率。
  3. 了解应用程序环境中的技术。如果您需要技术术语来描述您正在学习的内容的实际相关性,您可能还没有准备好应用它。
  4. 学习如何解释模型输出。例如,您需要了解模型精度的度量,以了解您是否可以信任模型。学习机器学习可解释性技术,如置换重要性。
  5. 在您感兴趣的域中构建项目。它可以是关于电影,时事,体育,食物或其他任何东西。这将教你如何以一种可以应用技术工具的方式构建关于世界的无定形问题。这是数据科学家最重要的技能之一。分享您的工作将教您如何解释和讨论结果,这可能是最重要的技能。
  6. 如果您跳过许多书籍和课程的算法理论,那么成为数据科学家会很容易吗?没有。

关于操纵数据,解释数据以及将工具与现实联系起来,需要学习很多东西。我故意减少了我教的抽象理论的数量,以帮助学习者专注于实践技能。我认为这种方法可以让你在开始认真的项目时不会让自己陷入困境。

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

发表评论

登录后才能评论

联系我们

如有建议:>>给我留言

QR code