分享

请教! 如何选择数据库??

现在需要做一个数据存储,生产线上生成的测试数据每天至少大概300w条 。想把这些数据存储起来,供以后数据分析,数据挖掘之用。之前都是用mysql储存,时间久后分析起来明显感觉吃力。个人感觉必须要做集群才行。
在初步了解了HBase和Greenplum后,感觉都可以一试,希望有经验的前辈帮我分析下他们的优势,选哪种比较合适,或者推荐下更合适的数据库!
谢谢!

已有(9)人评论

跳转到指定楼层
hyj 发表于 2017-3-8 11:31:50
存起来,那就是历史数据了,建议使用hive,分析起来更方便。有hive sql,spark sql等等。如果hbase就比较吃力了
回复

使用道具 举报

SuperDove 发表于 2017-3-8 11:32:17
Greenplum可以用分区做的话用用还行,Hbase在学习中

点评

Greenplum以前好像有用的,不过现在好像越来越少了  发表于 2017-3-8 13:12
回复

使用道具 举报

szcountryboy 发表于 2017-3-8 11:33:25
可以尝试使用impala
回复

使用道具 举报

w517424787 发表于 2017-3-8 11:47:25
就用mysql存储数据,然后抓取到hadoop的hdfs上来,最后通过hive、impala、spark sql等去进行实现查询,这样就好了!
回复

使用道具 举报

youngwenhao 发表于 2017-3-8 12:50:54
hyj 发表于 2017-3-8 11:31
存起来,那就是历史数据了,建议使用hive,分析起来更方便。有hive sql,spark sql等等。如果hbase就比较吃 ...

你好,请问为什么Hbase会比较吃力?
另外我看到一篇15年的paper关于Impala, Hive, SparkSQL 的查询performance比较,是不是选择Impala会比较合适?
query.png
回复

使用道具 举报

yuwenge 发表于 2017-3-8 13:13:38
youngwenhao 发表于 2017-3-8 12:50
你好,请问为什么Hbase会比较吃力?
另外我看到一篇15年的paper关于Impala, Hive, SparkSQL 的查询per ...

hbase不适合分析,sql能力有限。只适合固定的查询条件。
impala性能比较快一些
回复

使用道具 举报

想~左向右_走 发表于 2017-3-9 10:13:44
多维度分析可以使用impala或者spark sql,执行效率上比较有优势,sql支持也比较好,当然使用hive sql的话,可能执行效率相比较会慢一点。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条