分享

关于大数据技术选型的困惑

Fortitude 发表于 2016-7-13 17:36:47 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 10789
公司的业务库目前是在普通关系型数据库中存储,由于数据量不断积累,采用了分库。现在想要一种大数据解决方案,能够把所有分库的数据整合到一个大数据库中,最主要的是还要保证大数据库与普通分库数据的数据同步(增删改的数据)。目前我的做法是用sqoop把数据导入hbase中,然后作为hive的外部表。这样增删改利用sqoop导入hbase,查询利用hive,可以满足需求,但问题的关键是hive与hbase整合后查询速度奇慢,尤其是遇到两个大表关联时,几个小时查不出来。请教各位大神指条明路。

已有(3)人评论

跳转到指定楼层
langke93 发表于 2016-7-13 18:26:50
意思是说关系数据库还在使用,但是同步到了nosql数据库中。
hbase查询,只有rowkey是秒级别的,其它的不行的。hive适合离线处理,速度其实也快不了多少的。

方案只能是优化,对hbase做下二级索引。
对于关联慢,也可以优化下

Hive数据倾斜(大表join大表)【优化】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=13077

有个疑问,楼主为何从关系数据库变成使用hbase了。
想用他们实现什么。

如果仅是因为数据量大,其实可以使用oracle的

回复

使用道具 举报

Fortitude 发表于 2016-7-13 19:31:32
langke93 发表于 2016-7-13 18:26
意思是说关系数据库还在使用,但是同步到了nosql数据库中。
hbase查询,只有rowkey是秒级别的,其它的不行 ...

用hbase其实主要是因为数据会更新,hive无法更新(0.14以上版本的ACID特性可实现更新,但效率惨不忍睹)但是支持SQL,所以就有hive和hbase整合,hive查询,hbase更新。公司在往大数据方向上发展,不会在考虑传统数据库,更可况oracle收费也太贵。我就是想问,除了hive、hbase还有没有其他大数据解决方案,可以实现大数据存储和更新并且查询不是很差。
回复

使用道具 举报

qcbb001 发表于 2016-7-14 10:49:07
Fortitude 发表于 2016-7-13 19:31
用hbase其实主要是因为数据会更新,hive无法更新(0.14以上版本的ACID特性可实现更新,但效率惨不忍睹) ...

hbase+solr应该挺快的。这里有篇文章,楼主可以参考下


基于Solr的HBase多条件查询测试
http://www.aboutyun.com/forum.php?mod=viewthread&tid=9770



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条