redhat1986 发表于 2014-12-23 15:55:14

大数据存储方案讨论

最近公司准备做hadoop平台处理各种数据:文件的、关系数据库的等等,有没有人做过这样的存储方案分享一下?
补充说明:
1.我们想做一个手机端APP数据采集、购物网站日志数据及交易数据采集。将这些数据全部放到hadoop平台做数据分析,分析用户行为,然后给用户推荐产品。
2.手机端采集的数据保存在oracle中,购物网站的交易数据才oracle中,日志文件在购物网站的tomcat下。
不知道这样描述清楚否?还有需要知道什么请留言,谢谢!

ngou 发表于 2014-12-23 16:05:13

个人的一点想法,
日志FLUME --> HBASE
数据库SQOOP--->HBASE
HIVE上建立映射HBASE
结果后送入应用系统.

redhat1986 发表于 2014-12-23 17:19:42

ngou 发表于 2014-12-23 16:05
个人的一点想法,
日志FLUME --> HBASE
数据库SQOOP--->HBASE


算法层一般需要什么技术实现?具体一个实现思路是什么?如数据模型、算法、分析,等这些都怎么落地或实现?

redhat1986 发表于 2014-12-23 17:22:28

ngou 发表于 2014-12-23 16:05
个人的一点想法,
日志FLUME --> HBASE
数据库SQOOP--->HBASE


算法层一般需要什么技术实现?具体一个实现思路是什么?如数据模型、算法、分析,等这些都怎么落地或实现?

muyannian 发表于 2014-12-23 18:03:07

redhat1986 发表于 2014-12-23 17:22
算法层一般需要什么技术实现?具体一个实现思路是什么?如数据模型、算法、分析,等这些都怎么落地或实现 ...

这个项目还是比较复杂的,首先需要明确需求,你们使用大数据,想用它来干什么?只有明确了这个,才能有自己的方案。
比如你们想用hadoop做离线分析,然后通过对这些数据的分析,得出自己想要的结果。
当然除了离线,还有实时的,比如storm,spark,spark属于内存计算,目前最快的大数据工具了,但是集群规模有限。


包含算的技术比较多的,比如spark
当然还有mahout.
你们的这个项目可能还涉及到数据挖掘,更多内容,需要说的想详细,明确你们的需求。

linian_hadoop 发表于 2014-12-26 11:02:16

嗯嗯,我也持续关注这个问题。。。
页: [1]
查看完整版本: 大数据存储方案讨论