请教！如何选择数据库？？

现在需要做一个数据存储，生产线上生成的测试数据每天至少大概300w条。想把这些数据存储起来，供以后数据分析，数据挖掘之用。之前都是用mysql储存，时间久后分析起来明显感觉吃力。个人感觉必须要做集群才行。
在初步了解了HBase和Greenplum后，感觉都可以一试，希望有经验的前辈帮我分析下他们的优势，选哪种比较合适，或者推荐下更合适的数据库！
谢谢！

hyj · 发表于 2017-3-8 11:31:50

存起来，那就是历史数据了，建议使用hive，分析起来更方便。有hive sql，spark sql等等。如果hbase就比较吃力了

SuperDove · 发表于 2017-3-8 11:32:17

Greenplum可以用分区做的话用用还行，Hbase在学习中

szcountryboy · 发表于 2017-3-8 11:33:25

可以尝试使用impala

w517424787 · 发表于 2017-3-8 11:47:25

就用mysql存储数据，然后抓取到hadoop的hdfs上来，最后通过hive、impala、spark sql等去进行实现查询，这样就好了！

youngwenhao · 发表于 2017-3-8 12:50:54

hyj 发表于 2017-3-8 11:31
存起来，那就是历史数据了，建议使用hive，分析起来更方便。有hive sql，spark sql等等。如果hbase就比较吃 ...

你好，请问为什么Hbase会比较吃力？
另外我看到一篇15年的paper关于Impala， Hive， SparkSQL 的查询performance比较，是不是选择Impala会比较合适？

yuwenge · 发表于 2017-3-8 13:13:38

youngwenhao 发表于 2017-3-8 12:50
你好，请问为什么Hbase会比较吃力？
另外我看到一篇15年的paper关于Impala， Hive， SparkSQL 的查询per ...

hbase不适合分析，sql能力有限。只适合固定的查询条件。
impala性能比较快一些

fly2015 · 发表于 2017-3-8 14:16:50

hive吧

想～左向右_走 · 发表于 2017-3-9 10:13:44

多维度分析可以使用impala或者spark sql，执行效率上比较有优势，sql支持也比较好，当然使用hive sql的话，可能执行效率相比较会慢一点。

图文精华

请教！如何选择数据库？？

已有(9)人评论

点评

最佳新人

热心会员

推荐 /2

图文精华

请教！ 如何选择数据库？？

已有(9)人评论

点评

最佳新人

热心会员

推荐 /2

请教！如何选择数据库？？