“数据湖”中数据管理的4种方式

“统计数据湖”相当于一个中心位置来存储你所有的数据，它无需考虑到数据来源和文件格式。它通常是用‘hawq’来建立。数据能够是结构化的或者非结构化的。你能使用大量的存储，分析和处理工具快速获取数据的价值来做出重要的组织管理方法决策。

因为所有的数据都是受欢迎的，对于传统的企业数据挖掘而言，‘数据湖’算得上是一个功能强大的代替品或补充剂。另外，随着更多的企业向基于云服务的应用程序开发和物联网技术转型发展，‘数据湖’也是一个主要的选择。

在早期的使用案例中，企业频繁的将数据装载到“数据湖”而不尝试去管理它。随着‘数据湖’越来越成熟而且对企业来说更具战略地位，仅仅将数据装载到“数据湖”已经不再足够了而是必需做更好的打算。

“数据湖”具有灵活性，可维护性，低成本性3个特征。并且它还具有传统的数据仓库（EDW）的大部分特征，如果你要增加数据管理和支配能力，如：数据质量，数据集市，安全，转换和分拆与组合数据的能力。如果正确的管理“数据湖”，它可以改进我现在的数据管理对策并且能开启新的数据管理措施。建立“数据湖”的时候，你的公司可以选择下述4种方式中的这种：

选择1：推迟支配

第一种选择在载入数据到数据湖的时候就忽略数据的支配和管理。然而，当你需要刷选出数据中有用的部分的时候，你将不得不用工具来清除这种数据，例如深度学习技术。然而这种方法是真正存在风险的，即使是最智能的推理引擎也需要从‘数据湖’大量的数据中的某一地方开始，不可避免的就是在‘数据湖’中部分数据将被忽略，越来越滞后，孤立，并且其中的数据几乎不具有结构化，即使是最智能的自动化技术工具或者人工分析，都不知道从哪些地方开始。

选择2：适应已经存在的遗留下工具

你可以利用最开始为数据仓库设计方案的应用和过程。当你提前准备导进数据到数据仓库时你可以用工具软件来执行ETL过程。你可以用这些工具来导出来数据到数据湖，然而那样做代价很高，而且只有解决部分你所需要的管理和支配功能。另外一个缺点就是ODE是不包括在在Hadoop集群内的，那样会变缓操作速度和增加消耗，因为每次查寻都必须将数据从集群中清除。

选择3：编写订制脚本制作

在第三种选择中，你用定制脚本创建了一个工作流引擎来连接进程，应用，质量检测和数字转换从而来满足管理的需要。这是一个很常用的选择但是最不靠谱和最耗资源的。你需要在Hadoop和它的生态系统方面有较强的逻辑思维能力从而来利用开源工具，而且他们需要编写脚本来把各部分连接起来。随着你必须不断修改复杂的代码和工作流来更新‘数据湖’，这个过程是很费时间和资源的。

选择4：配置一个完整的“数据湖”管理系统

第三个选择是配置一个用来吸取和管理大量不一样的数据的“数据湖”管理平台。 Zaloni’s Bedrock 提供了这项功能。他允许你为数据编排文件目录，利用元数据并且支持正在进行中的以确保数据质量，数据沿袭和自动化工作流的进程。这种方法是解决“数据湖”管理和支配的最佳办法。

当你向“数据湖”转变的时候，选择一个完全整合的数据湖管理平台将会使你对数据充满信心，并且会合拼更多的用户和用户案例使之有益于商业服务。归根结底，这就是数据存在的意义，用来告之和提升组织的决策过程，用崭新的并且激动人心的方式来帮助您的业务流程增长。

文中由数据统计分析网– 朱彦缙翻泽，外资企业工作，爱好互联网大数据。

本文由翻译小组翻译发布，转载或内容合作请联系我们，未经允许谢绝转载，本文链接：https://www.afenxi.com/18982.html 。

“数据湖”中数据管理的4种方式

你可能也喜欢这些文章