分享

详述业务中拉链表的应用方式(一)

问题导读:
1、数据仓库的数据模型设计过程中会遇到哪些需求?
2、什么是拉链表?
3、拉链表如何实现落地?
4、如何在MySQL数仓中实现代码?


拉链表产生背景

在数据仓库的数据模型设计过程中,经常会遇到这样的需求:

1、数据量比较大;

2、表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;

3、需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等;

4、变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;

5、如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;

对于这种表有几种方案可选:

    方案一:每天只留最新的一份,比如我们每天用Sqoop抽取最新的一份全量数据到Hive中。
    方案二:每天保留一份全量的切片数据。
    方案三:使用拉链表。

以上方案对比

方案一

这种方案就不用多说了,实现起来很简单,每天drop掉前一天的数据,重新抽一份最新的。

优点很明显,节省空间,一些普通的使用也很方便,不用在选择表的时候加一个时间分区什么的。

缺点同样明显,没有历史数据,先翻翻旧账只能通过其它方式,比如从流水表里面抽。

方案二

每天一份全量的切片是一种比较稳妥的方案,而且历史数据也在。

缺点就是存储空间占用量太大太大了,如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费,这点我感触还是很深的…

当然我们也可以做一些取舍,比如只保留近一个月的数据?但是,需求是无耻的,数据的生命周期不是我们能完全左右的。

拉链表


拉链表在使用上基本兼顾了我们的需求。

首先它在空间上做了一个取舍,虽说不像方案一那样占用量那么小,但是它每日的增量可能只有方案二的千分之一甚至是万分之一。

其实它能满足方案二所能满足的需求,既能获取最新的数据,也能添加筛选条件也获取历史的数据。

所以我们还是很有必要来使用拉链表的。

拉链表概念

拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据(SCD2)的一种常见方式。

百度百科的解释:拉链表是维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。
拉链表算法

1、采集当日全量数据到ND(NowDay当日)表;

2、可从历史表中取出昨日全量数据存储到OD(OldDay上日)表;

3、两个表进行全字段比较,(ND-OD)就是当日新增和变化的数据,也就是当天的增量,用W_I表示;

4、两个表进行全字段比较,(OD-ND)为状态到此结束需要封链的数据,需要修改END_DATE,用W_U表示;

5、将W_I表的内容全部插入到历史表中,这些是新增记录,start_date为当天,而end_date为max值,可以设为’9999-12-31‘;

6、对历史表进行W_U部份的更新操作,start_date保持不变,而end_date改为当天,也就是关链操作,历史表(OD)和W_U表比较,START_DATE,END_DATE除外,以W_U表为准,两者交集将其END_DATE改成当日,说明该记录失效。

拉链表示例1

举个简单例子,比如有一张订单表:
6月20号有3条记录:
2021-06-30_182612.jpg

到6月22日,表中有6条记录:
2021-06-30_182642.jpg

数据仓库中对该表的保留方法:

1、只保留一份全量,则数据和6月22日的记录一样,如果需要查看6月21日订单001的状态,则无法满足;

2、每天都保留一份全量,则数据仓库中的该表共有14条记录,但好多记录都是重复保存,没有任务变化,如订单002,004,数据量大了,会造成很大的存储浪费;

如果在数据仓库中设计成历史拉链表保存该表,则会有下面这样一张表:
2021-06-30_182721.jpg

说明:
1、dw_begin_date表示该条记录的生命周期开始时间,dw_end_date表示该条记录的生命周期结束时间;
2、dw_end_date = '9999-12-31’表示该条记录目前处于有效状态;
3、如果查询当前所有有效的记录,则select * from order_his where dw_end_date = ‘9999-12-31’;
4、如果查询2012-06-21的历史快照,则select * from order_his where dw_begin_date <= ‘2012-06-21’ and end_date >= ‘2012-06-21’,这条语句会查询到以下记录:
2021-06-30_182758.jpg

和源表在6月21日的记录完全一致:
2021-06-30_182831.jpg

可以看出,这样的历史拉链表,既能满足对历史数据的需求,又能很大程度的节省存储资源;

拉链表示例2:

在历史表中对人的一生的记录可能就这样几条记录,避免了按每一天记录客户状态造成的海量存储的问题:
2021-06-30_182935.jpg

上面的每一条记录都是不算末尾的,比如到19070901,client已经在A,而不是H了。所以除最后一条记录因为状态到目前都未改变的,其余的记录实际上在结束日期那天,都不在是该条记录结束日期那天的状态。这种现象可以理解为算头不算尾。

拉链表实现方式

1、定义两个临时表,一个为当日全量数据,另一个为需要新增或更新的数据;
  1. CREATE VOLATILE TABLE VT_xxxx_NEW AS xxxx WITH NO DATA ON COMMIT PRESERVE ROWS;
  2. CREATE VOLATILE SET TABLE VT_xxxx_CHG,NO LOG AS xxxx WITH NO DATA ON COMMIT PRESERVE ROWS;
复制代码

2、获取当日全量数据

  1. INSERT INTO VT_xxxx_NEW(xx) SELECT (xx,cur_date, max_date) FROM xxxx_sorce;
复制代码

3、抽取新增或有变化的数据,从xxxx_NEW临时表到xxxx_CHG临时表;

  1. INSERT INTO VT_xxxx_CHG(xx)
  2. SELECT xx FROM VT_xxxx_NEW
  3. WHERE (xx) NOT IN (select xx from xxxx_HIS where end_date='max_date');
复制代码

4、更新历史表的失效记录的end_date为max值

  1. UPDATE A1 FROM xxxx_HIS A1, VT_xxxx_CHG A2
  2. SET End_Date='current_date'
  3. WHERE A1.xx=A2.xx AND A1.End_Date='max_date';
复制代码

5、将新增或者有变化的数据插入目标表
  1. INSERT INTO xxxx_HIS SELECT * FROM VT_xxxx_CHG;
复制代码

以商品数据为例

存在商品表 t_product,表结构如下:
2021-06-30_183025.jpg

2019年12月20日的数据如下所示:
2021-06-30_183100.jpg

商品的状态,会随着时间推移而变化,我们需要将商品的所有变化的历史信息都保存下来。

方案一: 快照每一天的数据到数仓

该方案为:每一天都保存一份全量,将所有数据同步到数仓中,很多记录都是重复保存,没有任何变化。
12月20日(4条数据)
2021-06-30_183133.jpg

12月21日(10条数据)
2021-06-30_183224.jpg

12月22日(18条数据)
2021-06-30_183308.jpg
2021-06-30_183332.jpg

MySQL数仓代码实现

MySQL初始化

在MySQL中 lalian 库和商品表用于到原始数据层

  1. -- 创建数据库
  2. create database if not exists lalian;
  3. -- 创建商品表
  4. create table if not exists `lalian`.`t_product`(
  5.     goods_id varchar(50), -- 商品编号
  6.     goods_status varchar(50), -- 商品状态
  7.     createtime varchar(50), -- 商品创建时间
  8.     modifytime varchar(50) -- 商品修改时间
  9. );
复制代码


在MySQL中创建ods和dw层来模拟数仓
  1. -- ods创建商品表
  2. create table if not exists `lalian`.`ods_t_product`(
  3.     goods_id varchar(50), -- 商品编号
  4.     goods_status varchar(50), -- 商品状态
  5.     createtime varchar(50), -- 商品创建时间
  6.     modifytime varchar(50), -- 商品修改时间
  7.     cdat varchar(10)   -- 模拟hive分区
  8. )default character set = 'utf8';
  9. -- dw创建商品表
  10. create table if not exists `lalian`.`dw_t_product`(
  11.     goods_id varchar(50), -- 商品编号
  12.     goods_status varchar(50), -- 商品状态
  13.      createtime varchar(50), -- 商品创建时间
  14.      modifytime varchar(50), -- 商品修改时间
  15.      cdat varchar(10)  -- 模拟hive分区
  16. )default character set = 'utf8';
复制代码

增量导入12月20号数据


原始数据导入12月20号数据(4条)

  1. insert into `lalian`.`t_product`(goods_id, goods_status, createtime, modifytime) values
  2. ('001', '待审核', '2019-12-18', '2019-12-20'),
  3. ('002', '待售', '2019-12-19', '2019-12-20'),
  4. ('003', '在售', '2019-12-20', '2019-12-20'),
  5. ('004', '已删除', '2019-12-15', '2019-12-20');
复制代码

注意:由于这里使用的MySQL来模拟的数仓所以直接使用insert into的方式导入数据,在企业中可能会使用hive来做数仓使用 kettle 或者 sqoop 或 datax 等来同步数据。

  1. # 从原始数据层导入到ods 层
  2. insert into lalian.ods_t_product
  3. select *,'20191220' from lalian.t_product ;
  4. # 从ods同步到dw层
  5. insert into lalian.dw_t_product
  6. select * from lalian.ods_t_product where cdat='20191220';
复制代码

查看dw层的运行结果
  1. select * from lalian.dw_t_product where cdat='20191220';
复制代码

2021-06-30_183445.jpg

下一篇:
详述业务中拉链表的应用方式(二)
https://www.aboutyun.com/forum.php?mod=viewthread&tid=31120



作者:俊杰梓
来源:https://blog.csdn.net/weixin_35353187/article/details/117202713

最新经典文章,欢迎关注公众号



没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条