搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
数据治理
›
总结型
›
数据治理:数据标准建设方法和流程
0
1
2
分享
数据治理:数据标准建设方法和流程
levycui
2022-10-25 19:18:14
发表于
总结型
[显示全部楼层]
只看大图
阅读模式
关闭右栏
1
1849
问题导读:
1、什么是数据标准?
2、为什么需要数据标准?
3、数据标准建设方法和流程是什么?
4、建立数据标准有哪些好处?
引言
数据标准就是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,来对数据定义、分类、格式、编码等标准化管理。通俗地讲,对企业来说,数据标准就是对数据类型、长度、归属部门等定义一套统一的规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。
01 什么是数据标准?
数据标准根据不同的数据域分为基础、分析类和专有类三类,其中:
基础类数标是企业日常业务开展过程中所产生的具有共同业务特征的基础性数据,如客户、产品、财务等。
分析类数标是为满足公司内部管理需要及外部监管要求,在基础性数据基础上按一定统计、分析规则加工后的数据。
专有类数标是公司架构下子公司在业务经营及管理分析中所涉及的特有数据。
其中,针对基础类数标,可以看一下金融行业经常用的数据标准十大主题模型。该模型是以主题组织数据,包括客户、资产、机构、产品等主题。
那么针对某个数据主题,数据标准到底由那几部分组成呢?
一般数据标准会包括:主题定义、信息项、标准代码三个文档,其中:
标准主题定义文档:主要是记录数据标准的定义、分类,用于规范和识别数据的主题归属。
标准信息项文档:记录数据主题的信息项业务属性(分类、业务含义、业务逻辑)和技术属性(类型、长度、默认规则)。
标准代码文档:记录信息项固定码值的编码、分类、使用规则等。
信息项文档是数据标准的核心。内容包括分类、业务描述和技术描述,一般由信息大类、信息小类、信息项、信息项描述、信息类别、长度共6项组成。当然这些内容也可以调整,例如信息大类、小类,可以合并,或者拆除更多层级。
信息大、小类是对信息项的常规分类,例如:例如客户信息大类包括基本信息、联系信息、关联信息、财务信息、风险信息、评价信息、往来信息七大类;信息小类,包括:客户编号、名称、证件、地址、评级信息、模型评分、等级、开办业务等。
信息项是用来描述一个事物的最基本元素。表示一个事物的识别、限制、数量、分类、状态,或者事物间的关系,例如客户信息的名称、年龄、性别等。
信息项描述是描写或者规范信息项的具体业务描述及界定。
信息类别是根据业务需求,定义相应的信息项在数据库中所需要的技术格式。例如:编号、标志、代码、金额、日期、数值、文本等。
长度是信息项的数据长度,供各系统建设参考使用。
02 为什么需要数据标准?
大部分企业的系统建设都是依据业务需求来的,没有一个整体的规划,没有考虑是否与其它系统的功能或数据存在重复的问题,而且各个系统由不同的厂商和产品搭建,所以不同系统之间数据的不一致性难以避免,也造成多种数据问题:
1、数据共享难以实现
数据存储结构不一致,调用多系统的数据时,由于某些数据在不同系统中数据存储结构不同,导致数据无法直接关联,影响不同系统之间的数据共享。
2、数据同名不同义导致错误
数据定义不一致,不同系统对数据的命名、业务含义、取值范围等定义不同,比如同名不同义、同义不同名等。
3、沟通成本增加
数据理解不一致,不同人员对数据的理解不一致,导致在数据使用时浪费很多时间来进行沟通。
4、数据来源不明
数据来源不一致,数据存在多个来源,在使用数据时,不清楚应该取哪个系统的数据。
简单来说,企业下分支各自都有自己的信息管理系统,分别管理自己的业务形态,当总公司要进行数据整合的时候,几个系统的信息都会进行存在一张信息表中,其实这个就是在建立数据标准。
那么要建立一个数据管理平台,统一存储各个分支全部的交换信息时,信息表该如何创建?这就需要创建信息标准来整合企业内部不同部门业务系统产生的信息。
数据标准化的过程其实就是在数据管理平台实现数据标准,并将各个系统产生的数据通过清洗、转换加载到整合平台的数据模型中,实现数据标准化的过程。
所以,数据治理的第一步就是要梳理清楚企业拥有哪些数据,并整合数据。而构建数据整合平台则必须要建立一套数据标准和数据模型,实现数据的标准化。
03 数据标准分类
一般可从三个维度去对数据标准进行分类:数据结构、数据内容来源、技术业务。
1、从数据结构角度进行的数据标准分类
结构化数据标准是针对结构化数据制定的标准,通常包括:信息项分类、类型、长度、定义、值域等。
非结构化数据标准是针对非结构化数据制定的标准,通常包括:文件名称、格式、分辨率等。
2、从数据内容来源进行的数据标准分类
基础类数据标准是指业务系统直接产生的明细数据和相关代码数据,保障业务活动相关数据的一致性和准确性。
派生类数据标准是指基础类数据根据管理运营的需求加工计算而派生出来的数据,例如:统计指标、实体标签等。
3、从技术业务角度进行的数据标准分类
业务数据标准是指为实现业务沟通而制定的标准,通常包括:业务定义和管理部门,业务主题等。
技术数据标准是指从信息技术的角度对数据标准的统一规范和定义,通常包括:数据类型、字段长度、精度、数据格式等。
04 数据标准建设方法和流程
数据标准实施过程包括数据标准规划、数据标准现状调研、标准设计、标准的实施映射、标准执行以及在使用过程中维护增强等过程。
主要内容包括:数据标准的范围有哪些,数据标准目前状况是怎样的,数据标准如何进行设计,数据标准实施映射应该如何去做,数据标准执行应该如何开展,如何对数据标准进行维护并完善等。
1、数据标准规划,需要考虑业务计划、应用范围、数据中体、服务对象、优先策略等。在开展数据标准规划时可以采用引进业界实施经验,根据业务的优先顺序和实施难易程度,规划标准的框架体系以及实施路径的方式开展实施工作。
2、数据标准现状调研,需要考虑现有定义、使用习惯、问题梳理、现状分析、参考文档等。可以通过调查问卷、安排现场访谈、收集文档资料等手段,针对不同的业务系统选用合适的调研方式,对现有定义、使用习惯、数据分布、数据流向、业务规则、服务部门等开展相关调研工作。
3、数据标准设计,是对数据标准的主题、信息大类、信息小类、信息项、数据类型、数据长度、数据定义、数据规则等进行规划设计。在方法论指导下,完成数据标准设计和定义工作,包括数据业务描述定义(业务属性)、类型长度定义(技术属性)、其他标准信息定义。
4、数据标准实施映射,要明确需要映射内容的系统范围、应用领域、数据库表、数据字典、数据字段等。将已定义的数据标准与业务系统、业务应用进行映射,表明标准和现状的关系以及可能影响到的应用。
5、数据标准执行,要充分考虑业务需求和实施难易程度上确定执行原则,最大程度上结合目标和现状,针对不同类型系统制定相应策略,并设定合理阶段性目标。执行建议可从业务流程、业务系统、管理应用及数据平台等各方面提出数据标准执行的建议。
6、数据标准维护增强是需要进行标准发布、管理机制、工作流程、配置工具等方面。结合数据管理需求和机制,组建组织机构,培训、培养管理员,负责相应工作,建立配套规章制度,利用管理工具维护更新标准并监控其执行情况。
05 建立数据标准有哪些好处?
上述问题,任何一个的出现都会让人头痛不已,但是通过数据标准的建设,却可以有效消除数据跨系统的非一致性,从根源上解决数据定义和使用的不一致问题,为企业数据建设带来诸多好处:
数据标准的统一制定与管理,可保证数据定义和使用的一致性,促进企业级单一数据视图的形成,促进信息资源共享。
通过评估已有系统标准建设情况,可及时发现现有系统标准问题,支撑系统改造,减少数据转换,促进系统集成,提高数据质量。
数据标准可作为新建系统参考依据,为企业系统建设整体规划打好基础,减少系统建设工作量,保障新建系统完全符合标准。
同时,数据标准建设也为企业各类人员提供了强有力的支撑:
对业务人员而言,数据标准建设可提升业务规范性,保障人员对数据业务含义理解一致,支撑业务数据分析、挖掘及信息共享。
对技术人员而言,有数据标准作为支撑,可提升系统实施工作效率,保障系统建设符合规范,同时降低出错率,提升数据质量。
对管理人员而言,数据标准建设可提供更加完整、准确的数据,更好的支撑经营决策、精细化管理。
06 总结
数据标准管理是企业数据治理的基础,没有标准化,更加谈不上数据质量。在得到标准评估结果后,需要根据结果的反馈对系统数据进行整改。
由于实际业务场景或其他因素的制约,数据整改并不是一次性的,而是要经过多次迭代,不断整改,从而得到符合企业预期的数据服务。企业也是在不断发展的,在这个过程中,系统数据也是在不断变更的。因此,数据整改也是随着企业的发展而不断适应和发展。
作者:数据治理体系
来源:
https://mp.weixin.qq.com/s/ypuedEFxcEQwtFSnrdbzwg
最新经典文章,欢迎关注公众号
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
wang_pl
发表于 2023-2-7 08:56:16
学习学习
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
levycui
超级版主
关注
653
主题
1166
帖子
97
粉丝
TA的主题
人工智能,助力书写数字金融大文章
2024-9-14
开源模型超过最强闭源模型,Llama 3.1颠覆AI生态
2024-7-25
慈不掌兵,我被下属反向PUA了
2024-5-21
字节三面过程,最终还是凉了
2024-4-25
用户画像算法:历史、现状与未来
2024-4-2
24小时热文
kafka面试题精选
Nebula Flink Connector 在实时 ETL 的实践
Apache Doris 用户案例集
国家电网公司主数据管理系统技术规范
企业的主数据建设方法论与实践
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈