1. 数据分析网首页
  2. 大数据
  3. 大数据技术

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

DataMaster划分为六个中心,分别为采集交换中心、取数操作中心、数据开发中心、敏捷挖掘中心、数据开放中心及运营管理中心。

DataMaster是浙江移动最新打造的一站式敏捷数据交付平台,其通过整合大数据采集、取数、开发、挖掘、开放、调度等多种能力,使企业能够端到端的快速完成数据加工和交付,从而高效释放数据价值。

DataMaster划分为六个中心,分别为采集交换中心、取数操作中心、数据开发中心、敏捷挖掘中心、数据开放中心及运营管理中心,这里做一简要介绍,希望于你有启示。

一、采集交换中心

实现了异构的数据库/文件系统之间高速数据采集交换,比如浙江移动大数据的采集交换任务几十万,必须依托于分布式,开放式灵活架构,主要包括五点:

1、采用去中心化的技术架构,支撑任务分片、分布式调度和执行,支持一站式运维;

2、通过网络、内存、磁盘资源线性规划,实现任务运行负载平衡;

3、提供多租户管理能力,实现能力的对外开放,很多数据交换都是应用驱动,必须提供灵活的支撑;

4、提供RPC、REST等服务能力,实现各类采集模块解耦,方便与第三方集成,一定要让工具适应场景,而不是反过来;

5、提供完全可视化的操作界面,无缝集成数据目录、采集模板等功能,降低数据采集和分发门槛。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

二、取数操作中心

可以认为是ORACLE开发工具PL/DEV的大数据平台版本,其通过封装SQL语法,提供各类异构数据平台的统一查询入口。

我们用了多年时间进行打磨,项目经理变成了产品经理,体验才做到了与PL/DEV基本持平,代价不可谓不大,但PL/DEV是死的,封闭的,无法定制的,而取数操作中心还在演化,包括但不限于:

支持多窗口并行操作、数据字典随时在线索引、表名字段名智能联想、快捷键自定义、取数操作轨迹跟踪审计以及查询权限隔离管控等特性。

支持Hive、Spark、Gbase、Oracle、MySQL、Aster、Teradata、EsgynDB等十几种主流计算平台。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

三、数据开发中心

可以分离线和实时两大部分。

1、离线开发交付

采用组件化方式,针对Hadoop、RDBMS、MPP等数据库或平台特点,对既定的、常用的数据、规则、功能、方法等进行定制封装,实现跨平台统一开发,开发人员通过可视化界面以拖拉拽方式,即可完成相关数据处理的开发,数据处理更加简化,处理效率更高,套路大家都差不多,不同的就是体验吧。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

2、实时开发交付

以Flink为基础构建实时计算能力,构建了统一的实时数据模型开发、调度,运维一体化工具,提供了基于图形化组件的实时数据编排服务,并实现统一的元数据管理。

同时针对实时数据存储特点,实现非结构化的模型管理,解决线下流式数据开发效率低下,缺乏数据工具支撑工具等问题,也就是说,离线模型和实时模型现在能纳入同一套数据管理体系进行管理。

我们的理念就是甭管离线和在线实现方式是的如何不同,对于前端开发人员一定要保持足够透明和简洁,否则就会影响它的普及使用。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

四、敏捷挖掘中心

笔者以前曾经做过介绍,从实用的角度讲,R/Python还是主流的挖掘引擎,现在最大的问题还不是深度学习的问题,而是数据准备、模型训练、模型发布、数据管理各项任务流程割裂的问题。

敏捷挖掘中心重点解决二个问题,一是R/Python集成数据目录等能力,也就是说,挖掘引擎可以直接复用企业数据字典的表,无需人工导入导出等工作,二是训练后的模型可以作为节点一键发布到数据开发中心的流程中。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

诸如阿里的挖掘平台都是这种一站式的理念,当然它们做的更彻底,整个训练都是图形化的,但有利也有弊,不同的企业需要根据自己的情况灵活调整。

除了敏捷挖掘,也在采用其它各种挖掘引擎,包括SPARK,分布式SPSS,基于GPU的TF等,这些引擎各有优点和适用范围,如果后续使用的多了,也会考虑敏捷化。

五、数据开放中心

数据安全是企业进行数据价值变现的重中之重,我们的理念就是数据和应用开发可以百花齐放,但数据出口必须只有一个,因此,几年前就建设了数据安全网关。

数据安全网关以数据服务API为基础,通过建设服务生产、服务管控、服务提供、数据产品运营计费、数据服务安全管控、合作伙伴运营管理等多个模块,实现对大数据开放增值过程的全面管理。

通过建设大数据安全网关,不仅有效支撑了对内数据服务工作,也为大数据对外增值变现提供了基础安全保障。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

六、运营管理中心

运营管理中心包括租户运营管理、数据资产管理、数据运维管控、数据模型超市等系列功能,这里做简单的介绍:

1、租户运营管理

DataMaster与企业的云管平台贯通,实现租户和数据资源的管理和分配,包含Hadoop、Hive、Mpp、Rdb等各类资源的纳管、资源申请流程贯通以及资源配置和使用信息的可视化展示,以下是从资源申请到最后标签发布的全流程示意图。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

2、数据资产管理

提供了一套标准化、流程化、自动化、一体化的数据资产管理工具,包括数据架构规划、业务数据变更管理、元数据管理、数据质量管理、企业级数据字典等功能,我们重点关注数据资产管理的四个方面:

一是业务系统数据资产的纳管,要从源头解决数据资产准确性问题。

二是元数据管理嵌入到开发流程中,解决二张皮问题。

三是关于数据质量的影响评估,要具备从源表、作业、中间表到应用的全流程分析能力。

四是数据字典的运营,要确保可用性,降低管理成本。

以下是企业数据字典的界面示例。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

3、数据运维管控

数据运维要实现数据全生命周期生产保障,主要包括一站式各类异构数据库作业任务运行监控告警、作业智能诊断、数据质量预警等系列功能。

大数据运维的重大挑战一是对于各种异构平台、作业级别资源耗用的自动化评估和优化,二是数据质量的监控,底层的数据质量问题往往牵一发而动全身,对于海量数据必须用系统化的手段来解决,以下是作业监控的列表示例。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

4、数据模型超市

数据交付后一个很大的问题就是开放共享,比如一个租户开发了一个很好的模型,但企业其他的组织和个人不清楚,或者清楚了也不容易移植,很多企业都面临模型最佳实践无法快速复制的挑战。

我们认为还是需要从平台层面解决问题,模型超市是一种尝试,其依托于统一开发和数据资产管理引擎,通过模型评估、模型分享、热度排名、一键移植等功能来实现快速复制共享,它不仅是个数据社区,更是个生产平台。

拥有敏捷数据交付平台(DataMaster)是怎样一种体验?

DataMaster任何一个模块的打造都无法一蹴而就,对于上述各种功能的描述看似轻描淡写,实际都是建设的关键,当然更大的挑战还在于运营,大家都懂得,我们还有很长的路要走。

本文为专栏文章,来自:傅一平,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/64351.html 。

联系我们

如有建议:>>给我留言

QR code