1. 数据分析网首页
  2. 人物观点

聊聊有关数据的一些基本概念和常见误区(上)

大数据一直是大家谈论的热点,但是对其中的一些基本概念,例如:数据源、数据元、元数据等等,大家是否觉得容易混淆、不易区分清楚呢?

聊聊有关数据的一些基本概念和常见误区(上)

大数据一直是大家谈论的热点,但是对其中的一些基本概念,例如:数据源、数据元、元数据等等,大家是否觉得容易混淆、不易区分清楚呢?本期作者将结合自己的实际经验及体会,将这些容易混淆的概念为大家逐一阐述。

过去一段时间以来,笔者也和国内许多金融机构(银行、农合机构、基金公司、资产管理公司、保险公司等)交流和探讨数据相关的工作事项。

通过交流,笔者发现一个特别有意思的现象,那就是朋友们聊起大数据来都是一副畅所欲言的架势,侃侃而谈、各抒己见,毕竟数据和自己日常的工作和生活是分不开的,而且能看出来都是饱受了数据的困扰(笑)。期间所引用的一些措辞和描述都不尽相同,虽然大概都能明白是什么意思,但是也引起了一些困扰,特别是对于管理层以及业务人员,甚至也包括一些专业数据和技术人员。

借此机会,笔者想抛开一些官方能查到的正式定义和术语解释,结合自身的实际经验和体会,把一些关键的数据基本概念以及大家容易混淆的常见误区进行释疑,希望能够对朋友们有所帮助。以下是笔者整理的十大基础概念组合,由于内容比较多,我们会分上、下两篇分别来聊一聊!

(一)数据、信息、大数据

既然说到数据,那么首先就从最基本的概念入手吧,那就是数据、信息和大数据,这三者之间到底是什么含义和关系。

我们把这三个词分成两组来解释,先说数据和信息。数据,顾名思义,是数字化的凭据,比如1234、ABCD等,以二进制来处理,所有的数据都可以用0和1来记录,形成数据化的凭据。说它是凭据(或单据),就是因为数据本身没有任何含义,就是一份记录,只是人们把想表达的意思记录下来所形成的凭据。而信息则不同,信息所体现的正是人们想表达的这层含义。举个例子,大家的电话号码,139XXXXXXXX,单就这11位数字而言就是一组数据,没有应用场景的话其本身不体现任何有价值的信息,只有在打电话的时候,人们用到这组数字拨号,才体现出它的价值,即某个联系人的电话号码。因此,数据是信息的载体,信息多是复杂的、不规范的,但是数据可以是简单的、规范的,简单到能够用标准化的二进制语言0和1来表示。所以,在一般情况下,计算机处理的是标准化的数据,而人脑处理的是复杂的信息。

马云提出的从信息技术(IT)转变为数据技术(DT)的发展战略,反映的就是去繁从简的理念,从本身没有含义的数据出发,挖掘出有意义的信息,并支持业务经营和管理决策。简单总结一下,就是人先闭嘴(“先”字很重要,不要误会了),让数据说话!

再来说数据和大数据。大数据这个词可以说最近几年被用滥了,全世界都在谈论大数据,每家企业都说应用大数据(笑)。相对数据而言,大数据到底大在哪里?我们这么来理解,首先是体现在数据量上,大数据是海量数据,传统的技术处理不了,好比大家日常用单机Excel处理超过多少万条数据就死机了是一个道理,当然海量可远不止这个量级。至于海量具体是多少,有没有标准的说法?笔者想说,你能想的多远、多广,这个海量就有多大(笑)。其次就是数据的范围和类型,不仅仅是机构内部的数据,还有好多外部的数据;不仅仅是结构化的数据,还有非结构化的数据。说到结构化,此前笔者也提到了,一般情况下计算机处理的是标准化的数据,这就是结构化数据。但是,还有好多文本、视频、语音等并非标准化的,这就是非结构化数据。当然,通过一定的技术手段,还是可以把非结构化数据转化为结构化数据并进行处理,看来计算机的二进制仍然是王道啊。

说明一下,大家也千万不要被大数据的“大”所迷惑了,非得追求大数据应用,非要用海量的、外部的、非结构化的数据等。邓小平说过,管它黑猫白猫,能抓住老鼠的就是好猫。翻译过来,管它是大数据还是一般数据,能支持经营管理决策的就是好数据。说到这里,笔者不禁又想起金庸小说天龙八部里的桥段,鸠摩智向大理天龙寺一众高僧展示各种眩目的武功,并表示希望以此交换六脉神剑秘籍,在众高僧被鸠顾问忽悠的眼红、心痒及矛盾纠结的时候,住持一句话就点醒众人:就你们这样连本派一阳指(都不说六脉神剑)都没练到位的,还有脸想学其他门派的武功!大数据应用也是一样的道理,先把企业自身积累的数据好好用起来,修炼自身内功,把以数据为驱动的管理理念和应用模式建立起来后,再迭代进行大数据的应用提升吧。

(二) 数据源、数据元、元数据

标题中的这三个术语算是业内比较容易把人弄晕的,相信很多朋友都有亲身经历过,更别提后来不知道哪位同仁又造出来一个“源数据”,这四个词的关系就更乱了(笑),各种YUAN,应该怎么才能把它们说的圆啊。

先说数据源,字面上理解就很容易明白,这指的是数据的来源,比如数据来源的信息系统、数据来源的表格等。举个实际例子大家就更容易理解了,“合约信息的 数据源 是 核心系统”,核心系统就是合约信息的数据源了。数据源这个词在企业使用的频率很高,那是因为数据源不一致(或不唯一)是企业数据质量低、数据打架的重要原因,所以统一数据源是企业的基础性数据工作。

而“源数据”这个词是后来不知道谁造出来的,可以认为这是一个口语化的用词,实际不应该作为一个正式的术语。它的产生笔者认为和“数据源”是有很大关系的,即源数据就是来自于特定数据源的原始数据,这么解释还是很绕吧(笑)。还是沿用上面的例子,我们说“合约信息的 数据源 是 核心系统”,那么来自于核心系统的合约信息就是源数据,或者称为原始数据,是后续数据加工处理的源头数据,这样大家就容易理解了吧。数据源的主语是在“源”上,指的是来源,其本身并非数据;而源数据的主语是“数据”,来自特定源的数据。当然,在实际应用中,笔者不建议用这个口语化的词,因为确实比较不容易理解并引起混淆,建议大家直接说具体的数据即可。

好,再来说说数据元。数据元的“元”指的是元素,即数据元素,你可以简单理解为数据项。比如“贷款余额”就是一个具体的数据项,把它抽象起来就形成一个数据元素。那么为什么要进行抽象并形成数据元?其目的是为了对这些数据元素进行标准化和规范化,以便统一使用。财政部XBRL准则中引用的就是数据元(数据元素)的概念,把一项项数据进行抽象、定义和规范,形成基础元素,以便在财务报表中组合使用。在其他外部监管机构发布的各类标准中,数据元也是基本的要素,形成了数据元目录,并提供统一和标准化的定义,作为行业标准。

元数据中的“元”含义则和数据元的“元”不一样了,指的不是元素,而是,怎么说,笔者暂时还想不到一个比较合适的词来解释,因为这个“元”太高、大、上了,和“元始天尊”、“天元”中的“元”是一个意思,而且你还不好解释为“原始”,否则就成原始天尊,变成了原始人,这级别和地位一下就拉下来了(笑)。可能“本质”、“本源”这些词更能用来解释,但似乎也不是那么准确。所以,笔者试着这么来解释吧,“元”是很高大上的,元数据就是数据中的数据,是最大的!那么如何理解数据中的数据?那就是,用来解释、定义数据的数据,我们称之为元数据。如果大家还是被绕晕的话,那我们举个例子吧,例如上面说到把“贷款余额”抽象为一个数据元,那么“贷款余额”的业务定义、统计口径和计算规则、管理属性、和其他数据的关联关系等描述性的数据就是“贷款余额”这个数据元的元数据了。这么看来,元数据的重要性就显而易见了,连数据标准都属于元数据的范畴了,元数据管理也就成为了保障、提升数据质量的重要手段。

(三)数据治理、数据管理、数据管控

既然前面已经都提到了元数据以及元数据管理,那么接下来就来聊聊和数据管理相关的几个概念。

数据治理、数据管理、数据管控是目前最容易被互相替代使用,且不太影响其表达含义的三个词。在实际使用中,大家确实也常在各种场景下“随机”使用这三个词,不过最近数据治理被使用的频率相对比较高一些。本着精益求精的精神,笔者还是试着来解释这三者之间细微的区别吧!

首先来说数据治理,相信大家看到这个词后会很快联想到“公司治理”。确实,数据治理本身属于一种公司治理活动,而且区别于一般的管理和管控活动,数据治理强调的是从企业的高级管理层及组织架构与职责入手,建立企业级的数据治理体系,自上而下推动数据相关工作在全企业范围的开展。可以说,数据治理是数据工作的顶层架构设计

相对的,数据管理则更多的偏重于管理流程方面,涵盖了不同领域的数据管理流程和内容,包括数据需求管理、数据认责管理、数据标准管理、元数据管理、数据安全管理、数据质量管理、数据评价管理等各个领域,这是数据工作的核心内容。

而数据管控就更偏执行层面了,其重点在于如何执行和落地实施,涉及到具体的管控措施和手段。

因此,数据治理、数据管理和数据管控体现了自上而下的管理层级,治理的重点在于管理架构和体系,管理重点在于流程和机制,管控重点在于具体措施和手段。这三者之间是相辅相成的,缺一不可。前面提到了最近业界比较经常用到“数据治理”,启动的专项工作也多以数据治理来命名,这主要是因为在过去几年中,许多金融机构实际上都已经开展了一系列数据管理和数据管控的具体工作,但是主要都是以信息科技部门牵头,配合信息系统建设为主要目的。这种自下而上的推进方式,其实际成效往往不是特别显著,很难解决企业在业务经营和管理上存在的实际用数困难。这也是为什么现阶段大多数金融机构都逐渐意识到在企业战略层面推动数据治理的重要性和必要性,并启动数据治理相关项目。对于数据治理工作具体如何开展,有何切实、有效的实施策略,这属于一个专项课题,笔者此前也发布过有关数据治理的一篇文章,各位朋友有兴趣的话可以查阅公众号的历史文章目录。

(四)数据标准、数据规范、数据字典

聊完数据治理,接下来很自然的就要谈到数据治理的核心内容之一,那就是数据标准。

数据标准相信各位业内人士都经常接触到,包括外部的金标、银标等行业标准以及企业内部的标准,都属于数据标准的范畴。然而,在很多场景下,特别是早些年企业所制定的所谓数据标准,其实往往是更偏向于数据字典的概念,其内容还没有达到数据标准的要求。因此,接下来我们就先来说明一下数据标准和数据字典的区别。

首先来看数据标准应该包括的完整内容,即业务属性标准、管理属性标准、技术属性标准。业务属性标准指的是数据元的业务相关属性,包括名称、业务定义、统计规则和逻辑等,这都是需要数据的业务归属部门负责进行定义的;管理属性标准指的是数据元的管理过程属性,包括归属部门、使用部门、管理部门、加工系统、存储系统、应用系统以及数据的生命周期关系等内容,需要业务部门和技术部门共同确定;技术属性标准则偏重于数据元的技术规范,包括数据格式、编码规则、代码取值、库表字段名称等,一般由信息科技部门进行定义。

数据标准是企业级的标准化语言,既统一规范了部门间沟通的业务语言,又规范了系统间交互的技术语言。相对于数据标准,数据字典更偏重于某个或某类系统的技术属性标准,解决的主要是系统层面的开发和交互语言。

虽然在实际应用中,数据字典也可以是企业级的,可以统一规范企业所有信息系统的数据字典(往往比较难),但一般情况下只作为单一系统的数据字典,即多个系统有多套数据字典。究其主要原因,是由于数据字典对应的是系统的实际数据库表设计,但是往往很少有企业能够在企业级实现所有信息系统均按照同样的数据字典进行库表设计,这里有历史遗留的原因,也有外购成熟软件(难以调整)的原因。

而数据标准就不一样了,它更关注于不同信息系统之间进行数据交互或数据整合时,需要遵循的统一标准。不同信息系统在进行数据交互时,如果相应数据字典的规则互不一致,则要按照统一的标准进行数据映射和转换,例如A系统的客户性别字段名是“Customer_sex”,取值为1(男)和2(女);B系统的客户性别字段名为“Client_gender”,取值为M(男)和F(女),两个系统的数据字段名和取值均不一致。那么在两个系统在交互或进行企业级数据整合时,就需要按照统一的标准命名进行数据项的映射,并按照统一的代码取值进行转换方可实现。

此外,数据标准还是业务部门之间的标准化语言,例如X部门的统计报表中“贷款余额”与Y部门统计报表中的“各项贷款余额”实际的业务含义和规则如是一致的,那么就应统一命名,避免管理层和部门之间使用报表数据时产生歧义。

因此,从内容范围上来说,数据字典必须涵盖系统的所有数据项,但数据标准主要针对跨部门、跨系统的共享数据项。

讲完数据标准和数据字典的区别后,相信大家就理解为什么笔者提到以往很多企业做的数据标准实际都还是停留在数据字典的层面,那是因为一方面当时做的标准不是企业级的,没有得到所有业务部门的认可,而更多是科技部门主导的信息系统级的标准。另外就是标准的内容也多偏技术属性标准,业务属性和管理属性标准普遍缺失。再有就是标准的应用主要为了指导信息系统开发和建设,而不是为了规范业务部门用数。

当然,笔者在与很多金融机构的同事聊起这个问题时,大多数科技部门的同事都表示当时也是没办法的,科技部门自身很难(不论是行政管理还是业务能力上)推动企业级数据标准的建设,而且聘请的外部机构往往是系统实施厂商,项目过程中又没有和管理层及业务部门充分沟通,主要靠科技部门和系统厂商一起闭关修炼做出一套标准来,那自然而然就做成了偏系统和技术层面的标准了。而笔者与业务部门同事沟通时,却发现许多业务人员都表示自己不知道企业原来还有这样的数据标准。在了解完情况后,业务人员表示“噢,那是科技部做的吧,我们不太清楚”。是啊,连业务部门都没有推广并使用的数据标准,还能称之为企业级的数据标准吗?但是呢,最终的项目成果还是很“显著”的,为什么呢,因为标准在系统上落地实施了!这也是目前笔者认为业界存在的一个重大误区,即检验数据项目成败的关键不在于业务应用和管理上是否有成效,而是在于系统上是否落地实施?!还是回到数据治理的本质,我们不是为了治理数据而开展数据治理工作,最终还是为了服务于企业的业务经营和管理用数需求,如果过分关注(当然还是需要关注)技术和系统层面的实施,而忽略了业务应用和管理,那么真是本末倒置了。

再来讲数据规范。可以这么说,数据规范是一顶大帽子,既包括前面说到的数据标准、数据字典,也包括现在很多金融机构在做的业务术语规范、指标体系规范、数据模型规范等等。说到这里,大家不禁会问,那指标体系、数据模型又是什么呀?这里笔者先卖个关子,请看下文分解(笑)。

本文为专栏文章,来自:KPMG大数据挖掘,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/41383.html 。

联系我们

如有建议:>>给我留言

QR code