搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
数据治理
›
问题解答
›
为什么要数据治理以及落地案例
0
0
1
分享
为什么要数据治理以及落地案例
阿飞
2020-8-4 14:04:43
发表于
问题解答
[显示全部楼层]
只看大图
阅读模式
关闭右栏
0
3326
About云VIP帮助找工作和提升
本帖最后由 阿飞 于 2020-8-4 14:08 编辑
问题导读
1.为什么要数据治理?
2.企业进行数据治理面临着哪三大问题?
3.汇集数据中间层的作用是什么?
1.为什么要做数据治理呢
越来越多的企业开始了解并推行大数据治理,最重要的推动力是企业面临数字化转型的巨大压力。然而,数字化转型的基础需要打通数据。如果数据不通,标准不一致,质量不高,就无法做分析。那应该如何连通企业内部数据呢?这就必须要做数据治理。
以阿里为例,作为一家互联网公司,旗下各业务数据相互连通。芝麻信用、菜鸟的智能物流、阿里妈妈的精准营销等等,它们都是通过大数据驱动之下,构成了业务与数据联通的闭环。像这种公司,整体的数字化水平非常高,信息的共享和流通能力很强。
企业做数据,更重要的是解决应用和应用间的信息共享问题,尤其是大的业务域和业务域之间的信息共享。只有把数据连接起来,它才能发挥更大的价值,消除数据孤岛。所以说,在数字化转型中,大数据治理是一个基础。企业通过大数据治理,才能为业务提供智能化的数据工作环境。
大数据治理面临的问题
虽然一些大型企业在信息化和自动化方面做得很好,但是在数据治理上仍然面临很多问题和困难。企业进行数据治理面临着三大问题:
1.最大的问题是组织架构。从组织架构上,企业必须得有一个数据管理部,这意味着从公司层面足够重视。有效的组织架构是项目成功的有力保证,为了达到项目预期目标,在项目开始之前对于组织及其责任分工做出规划是非常必要的。
2.其次是工具链条的缺失。企业做数据治理,效果往往不好,原因是什么呢?很多时候企业依赖人工,比如数据准备、数据标准等。
3.最后一个问题是数据含义不清楚。虽然企业该有的数据都有,但是数据的业务含义是什么并不清楚,并且数据之间的标准也没有。因此,企业很难把数据利用好。
2.数据治理如何落地
据治理的最终目的是服务于生产业务,究竟如何把这些标准性、概念性的东西,落地到实践、实操,真正实现数据的“可管、可视、可用、可控、可估”,还需要借助数据平台建设一步步推动企业数据治理落地,直至完善的数据资产管理平台形成。
从解决生产业务的支撑问题出发,以可用可操作为宗旨,我们根据企业的实际业务需求,做了许多落地实践的尝试,这里分享2个实践案例,给大家一点思路:
案例1:
基于数据中台的理念和方法,做汇集数据中间层,重构数据模型,替代复杂、冗余数据源表
某集团企业需要支撑20多个子公司的日常的数据运营工作, 原力大数据基于数据中台的理念和方法,在集团公司既有的支撑体系内,做了一层数据加工:汇集数据中间层。
将复杂的数据源表简单化,重新构建表关系和指标,接入数据集市的上千张表,上万个数据指标,满足全省各地市的数据支撑需求。
汇集数据中间层的作用:
1.组合相关和相似数据,采用明细宽表,复用关联计算,减少数据扫描;
2.统一加工公共指标,构建数据治理的标准,构建命名规范、口径一致和算法一致的统计指标,为上层应用提供公共指标;
3.建立一致性维度:建立一致的数据分析维表,降低数据计算口径、算法不统一的风险;
4.通过规范化的数据标准与口径,降低了数据理解不一致、计算口径不一致的风险,极大的提升了支撑效率和效益。
这个项目里,我们帮助企业:
1. 将上万个字段,简化成可满足日常使用的1000多个字段,并可以动态管理的字段上架与下架;
2. 将上千张数据表,整理成54张独立的数据表,减少数据存储冗余;
3. 规范数据标准与口径,重新定义了表结构和指标,统一了计算口径,有效降低了理解不一致、调用混乱的风险;
4. 各子公司运营人员能够快速、准确、简单的提取所需数据,学习成本、人力成本、时间成本直接减半。
案例2:
建设自主数据分析平台,将数据原子化,支撑业务人员自助选择搭配与计算
原力大数据在与某世界500强集团合作的数据治理项目中,建设了自助分析平台,将数据原子化,构建原子指标库和展示数据指标库。
平台汇集多个来源的数据,基于Kimball维度建模的核心理念,先形成相对标准化的面向业务过程的明细中间表,然后以用户标签表为核心的汇总宽表,再在应用数据层生成个性化指标或数据组装,形成对标签筛选取数、用户画像、个性化分析等应用支撑。
这种数据模型(数据的存储方式)简洁清晰,标准化程度高,易扩展,能大幅节省存储、计算、开发成本;
再搭配‘拖拉拽式’的自助取数功能和可灵活自定义的可视化统计报表,能够满足50-60%的日常运营提数和报表需求。
自助取数:拖拉拽自由选取所需数据,并配置计算条件,满足数据宽表的明细级数据输出;
自助可视化统计报表:实现标签结果明细数据的报表自定义配置,并可支撑灵活的多维、图形化分析;
自主分析平台这种数据治理的落地方式,操作模式简单、数据标准与口径标准化程度高、可高度自由配置的指标数据、快速的支撑响应速度,极大的释放了数据支撑人员的压力。
参考:
https://www.sohu.com/a/351803542_610372
https://www.zhihu.com/question/269987457/answer/605133851
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
没找到任何评论,期待你打破沉寂
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
阿飞
超级版主
关注
1893
主题
1998
帖子
123
粉丝
TA的主题
华为OD目标院校名单(2024.07新版)
2024-7-19
国/央企投递全流程经验分享
2024-7-15
2024年了,互联网大厂福利还香吗?
2024-5-23
华为3年涨薪6次,每次涨薪高达3万
2024-5-14
华为OD面试
2024-5-13
24小时热文
Flink CDC:新一代实时数据集成框架
蚂蚁面试就是不一样
如何高效学习
人情世故速查速用大全集
框架思维
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈