返回 登录
0

数字化转型中的自动化大数据治理

本文转自微信号EAWorld。扫描下方二维码,关注成功后,回复“普元方法+”,将会获得热门课堂免费学习机会!本文转自微信号EAWorld。

当今,数字化正在各行业快速发展,酝酿着一场巨大的变革,许多企业将会经历前所未有的改变。在数字化转型的道路上,数据是上层建筑和质量的基石,而数据治理在提升企业数据质量的道路上扮演重要的角色。

目录:
一、数字化是企业精细化管理的必由之路
二、数据治理就是自动化的数据生命周期管理
三、企业数据治理执行建议

一、数字化是企业精细化管理的必由之路

图片描述

我们现在身处一个虚拟时空交易与现实时空交付的数字化时代。

数据正发挥着越来越重要的作用,数据将驱动企业业务运营,我们通过数据去发现机会或定位问题的根源,从而从根本上解决问题。

图片描述

从发展趋势来看,未来的企业必将成为数字化的企业,数字化转型将成为企业核心战略,而在此过程中数据治理则是转型道路的必由之路,它能提升企业数据的整体质量,规范企业管理数据的动作。

图片描述

普元在多年的项目实践过程中,发现企业在做数据治理的过程中存在着五个痛点,分别是:

企业数据摸底不清晰
缺乏数据治理落地体系方法
缺乏有效的支撑工具
数据整改周期长
系统建设各自为战,数据关联度不足,甚至割裂

图片描述

企业中有价值的数据是散落在不同的业务系统中的,由于信息化进程和阶段的不同,业务系统都是采用急用先建的策略进行。要从企业万千杂乱的数据中理出价值密度高的数据,人工、无体系的管理方式在数据膨胀的环境下已心有余而力不足,企业需要自动化甚至智能化的手段去解决数据的问题。在多年的实践中我们发现,自动化是大数据治理的关键因素。

作为数据密集型企业,银行一直是国内数据治理的排头兵,有数据治理相关的政策要求,也有数据强化管理的要求。下面我们举几个银行的案例:

图片描述

先看某大型知名银行的案例。在这个案例中,我们帮助客户实现了自动支撑数据标准构建、自动规范系统数据模型、自动构建企业数据地图、自动实现数据协同变更、自动执行关键数据检核等全面自动化的数据生命周期管理,大大提升了对数据管理的力度。

图片描述

再来看一个城商行的案例,该城商行通过自动化的企业数据地图构建、自动实现数据协同变更、自动执行关键数据检核,保障了数据中心对数据的统一管理,推进了变更统筹管理、降低了源头业务系统在数据结构变化过程中对分析类应用的影响,从而大大提升了该行IT项目群的整体管理水平。

由于时间和篇幅的原因,我们没对电信、政府、制造业、航空业、物流业的案例进行介绍,但在普元实施这些行业客户的时候,无不是通过自动化的手段去解决数据治理问题。

我们认为,数据治理其实是围绕数据生命周期的不同阶段,开展对数据规范、管理和整治活动的集合。由于数据在企业中存在的形态是琐碎多样且无体系的,企业必须用整体的思路、体系化的管理策略,使用自动化的方式去解决数据管理的问题。

二、数据治理就是自动化的数据生命周期管理

我们从不同行业的数据治理实施项目中提取了五种可执行的自动化手段,来解决数据生命周期中不同阶段的数据治理问题。

这五个手段分别是:
自动支撑数据标准构建
自动规范系统数据模型
自动构建企业数据地图
自动实现数据协同变更
自动执行关键数据检核

图片描述

1.自动支撑数据标准构建

自动支撑数据标准构建的意思是,企业能在在数据生命周期的规划和标准规范阶段,能通过工具来自动构建数据标准。

数据标准是企业的语义字典,不仅对企业数据架构,数据分类,数据特征进行了全方位的描述,还对业务活动和业务系统建设给出了数据架构层面的的指导性建议。它相当于一个纲领,用来规范信息系统的建设,并且协同业务和技术。

一般企业构建数据标准,需要参考同业、引用国家标准、考虑企业数据现状。但我们发现标准和企业实际情况脱节是经常会出现的问题,造成标准无法落地或落地困难,所以数据标准制定过程中一定要充分考虑企业的数据现状。我们认为要在摸清企业数据现状的基础上再构建数据标准。

图片描述

构建数据标准要从自动化的数据资产梳理开始。通过元数据管理工具自动摸清企业有哪些数据,在什么地方,如何存储,归谁使用,谁在运维,体量如何,数据含义是否明确,被谁关联引用等,在这些都明确的基础上,自动对元数据进行归集和分类,将分类结果经过甄别评审后归集到定义好的数据标准分类体系上,整个过程在线上完成,实现数据标准构建的自动化支撑。

图片描述

从整体统筹的的角度讲,与传统数据标准的构建方式相比,自动化构建数据标准有几个好处:

一是数据标准是从企业实际数据环境中发掘出来的,制定的标准有现实依据;

二是关键的、核心的共享级数据明确了出处,在什么部门、在什么系统、在什么数据库中、归谁管理和负责一目了然,在进行数据共享的时候减少了数据分析时间,提高了工作效率。

三是针对存量的核心数据进行了数据标准映射,在标准制定过程中可以映射存量系统关键数据,在管理和使用上明确了这些数据和标准的关系。

2.自动规范系统数据模型

企业信息化正从分散化业务处理系统向平台化业务系统转变,如何落实数据标准化,发挥数据标准统筹规范的价值是一件不容易的事情。在数据生命周期的开发实施阶段,自动规范系统数据模型变得很重要。

图片描述

自动规范系统数据模型在数据生命周期过程中起到了承上启下的作用,也是数据标准化落实的关键阶段,是元数据事前管理的重要环节。

对于新增系统和存量系统来说,自动规范系统数据模型的方式也不同。在信息系统建设初期,业务模型、逻辑模型、数据模型要能在线上设计完成,并且设计的过程中能引用企业信息模型(非金融)或数据标准(金融),以此来达到规范模型的目的;

而对于存量系统,我们可以使用自动化的元数据采集能力,自下而上反向生成存量系统的数据模型,如上图所示。

图片描述

虽然在线设计系统模型在一定程度上保证了数据标准或企业信息模型的有效落地,但系统运行是一个持续的过程,投产后的系统元数据随时都有可能发生变化,所以需要定期自动从生产环境中采集元数据和设计态中的元数据进行比对纠偏,保证设计和投产的一致。

3.自动构建企业数据地图

企业组织是一个整体,描述的企业活动的数据应该也是一个整体。企业可以通过元数据管理工具,将企业所有元数据自动采集到一起,并在自动抽取元数据的过程中建立不同载体与跨载体的数据关系,形成一张反映企业现状数据的关系网,我们通常称这张网为“数据地图”。

通过数据地图,在运营管理上能统筹看待数据,全盘考虑数据架构,提出数据治理目标,从根本上解决问题。

图片描述
图片描述

企业数据地图的构建必须是自动化的,通过自动化才能准确获取企业信息系统中的元数据信息以及元数据间的关系信息,数据地图的脉络分析让每个数据的在企业的数据链条的位置和数据价值变得清晰可见,通过数据地图还能查询数据的技术属性、业务属性、管理属性、安全属性、稽核属性等,当然也能知道数据是否遵循了企业数据标准规范。

图片描述

以上提到的数据间的流向关系在企业信息系统是真实存在的,我们选用合适的元数据工具能方便得到。但数据的关联关系一般是逻辑上的。比如:核心系统、信贷系统、基金系统、网页系统、理财系统都存在客户号,要基于客户号获取这些系统中客户实体的相关属性信息,将会是一件不容易的事情。因为这需要知道相关系统在数据上的逻辑关系,而逻辑关系一般在跨部门,跨系统间是没有在数据库表层面建立的,所以在做数据分析的时候需要一种自动化的手段来给这些数据建立关系。

我们基于知识图谱技术构建企业数据间的关联关系,首先基于企业元数据信息,通过自然语言处理、模式识别等算法,以及业务规则过滤,实现实体对象提取;然后以本体的形式表示和存储;最后利用智能搜索、关联查询手段,为最终用户推荐数据关联关系。有了知识图谱的支持,基于元数据的自助数据服务开发就变得很简单了。

4.自动实现数据协同变更

在数据生命周期的使用阶段,企业业务系统建设的步伐深化,数据需要在不同的系统当中流转和交互,一些平台类的系统开始出现,如ODS、仓库、集市、大数据等,企业运营决策也依赖数据的整合,这期间面临的一个主要问题就是数据全链路协同变更。

在数据链路上,任何一个点上数据结构的变化必将影响其他节点上的数据,我们需要一种自动化的能力实现全数据协同变更。下图是一个典型的案例场景,供大家参考。

图片描述

自动的全局数据协同变更包含两层意思,

一是在数据链路上的任何一点发生数据结构的变化,如字段长度、字段类型等,会自动通知数据链路上的相关部门或责任人;

图片描述
二是在数据作业异常后,会自动的通知作业依赖链路上相关的部门或责任人。

另外, 流程在数据管理工作中起到串联和推动的作用,数据管理工作是企业级的一个大的基础工程,涉及的部门、系统、人员较多,因此常态化的数据管理离不开流程驱动,引入流程化机制,能规范跨系统,垮部门的数据工作协作。

5.自动执行关键数据检核

数据治理的核心目标是通过优化数据结构,规范数据定义,完善数据使用流程等手段来提升企业数据质量,我们所制定的组织、角色、工作方法都是围绕这个目标来设计的。企业要通过自动化的手段重点监控核心数据,如监管类的数据,核心决策类指标数据等。

图片描述

数据标准是衡量企业数据质量好坏的准则,对企业关键的数据检核应该来源于数据标准规范要求。在上面的分享中,我们知道数据是多维的,包括技术维、业务维、管理维、质量维、安全维,针对数据标准的技术维度要求,结合元数据管理自动化构建针对关键数据的检核规则,就能发现数据在技术维度上的不足或问题。

三、企业数据治理执行建议

以上我们从数据生命周期的不同阶级讲解了开展大数据治理的五个自动化手段,下面我们根据普元多年数据治理项目实施的经验,给出企业在执行数据治理的一些建议,供大家参考。

企业数据治理的目的是让数据在业务和技术上保持统一的口径和准确的含义,能在企业数据架构的规划下指导信息化的建设,并能在需要的时候对数据进行连接、整合,进而挖掘出数据价值驱动企业运营。

在数据治理执行建议中,我们将数据的生命周期切分成事前、事中和事后三个阶段。

图片描述

在事前阶段,要定数据标准,信息系统的数据模型在线上参考标准进行设计,设计好的模型可以直接创建信息系统的数据库,所有的模型变更调整都在平台上进行。

模型设计过程中能看到其他系统的数据模型,也能看到其他系统数据标准化的情况。

过程要符合企业系统开发的管理流程,在流程驱动下完成设计和变更工作。

这样做的好处有以下几个:

企业元数据在事前的到有效管理和控制。
系统间数据不是割裂的,从数据架构角度看他是一个整体,我在用哪个系统的、那个业务的数据,谁又在用我的数据,一目了然,清晰可见。
数据标准(企业信息模型)落地有了载体,有了方法,有了能力支撑,标准执行的程度可查、可控。
全局数据分析有了数据门户,数据质量在模型层面得到有效提高。

如果企业没有制定数据标准,这种事前管理思路也是值得尝试的。

图片描述

在事后阶段,通过检核的抓手促进企业数据标准落实。

这里提供两个抓手

针对生产运行态的元数据进行定期的、自动化抽取,抽取结果和事前设计态元数据进行比对,发现差异,提出整改意见;
根据数据标准规范对关键数据进行质量检核,发现数据问题,提出整改意见。

在事后阶段,为了促进数据质量的持续提升,企业可以引进考核机制,进而为数据治理的有效开展提供保障。

关于作者:
王鹏
现任普元大数据产品线数据治理项目实施经理,2009年进入国内数据治理领域,先后主导或参与金融业、运营商、制造业、政府、航空,物流等行业的数据治理解决方案的编写,以及相关落地项目的实施。

图片描述

关于EAWorld
微服务,DevOps,元数据,企业架构原创技术分享,EAii(Enterprise Architecture Innovation Institute)企业架构创新研究院旗下官方微信公众号。
扫描下方二维码,关注成功后,回复“普元方法+”,将会获得热门课堂免费学习机会!
微信号:EAWorld,长按二维码关注。

图片描述

评论