hive数据仓库更新删除的问题处理
目前系统为oracle的数据仓库,由于点击流数据的指数增长,目前关系型数据已经无法满足,需要将现有的oracle的数据仓库迁移到基于hadoop平台的hive,并整合其他业务系统的数据,构造基于hive的数据中心。之前在oracle数据仓库中会设计到拉链表和增量更新操作等ddl,但是hive目前不支持删除和更新的操作,所以想问下大家在设计hive数据仓库时是通过什么样的变通的方法来解决hive的这个弊端?
这个或许不是弊端,应该合理的利用这些工具的优点和缺点,数据仓库,顾名思义,是用来存储历史记录的。他的目的是用来分析。如果数据仓库允许删除,那么利用它来进行分析得到的数据就会不准确。这是数据仓库本身的意义。
如果你还需要对它进行删除,那么说明你可能选错目标了。
你可以了解一下hbase。
下面的资料供你参考
hive与hbase的十大区别与联系
白话数据库与数据仓库的区别
完全用HADOOP代替传统数据库,现在是不可能的
hive后面支持了更新,可查看
HIVE中数据更新(update)操作的实现
https://blog.csdn.net/sparkexpert/article/details/50432369
页:
[1]