hadoop、hbase 、spark 我该选哪个呢？

本帖最后由 thomaschen 于 2016-2-29 13:17 编辑

请教一个问题
车联网数据
一辆车每天产生五千条数据，一万辆就是五千万条数据
应用中主要对单车根据时间段来进行数据分析
hadoop、hbase 、spark 哪种更合适？
或可有其他推荐的？

不好意思，发错板块了，版主能帮忙转移下吗

补充内容 (2016-3-7 11:34):
请有这方面开发经验的高手指点下

已开始打算用Hbase，后来看到说适合矮胖型数据，我这个数据列有点多估计50+吧
然后想干脆就直接HDFS，研究了下，HDFS不适合小文件，不支持文件修改
这样貌似更不适合我的业务规...

easthome001 · 发表于 2016-2-29 14:28:09

看是在线还是离线。离线，hadoop就可以了
参考：
一淘大数据离线架构Hadoop+HBase介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=6736

在线spark和storm
在线广告公司是如何使用spark的
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12699

Riordon · 发表于 2016-3-1 08:33:06

我们用HBase，设计好rowkey，像历史轨迹，最近轨迹查询都挺方便...

thomaschen · 发表于 2016-3-2 09:06:28

Riordon 发表于 2016-3-1 08:33
我们用HBase，设计好rowkey，像历史轨迹，最近轨迹查询都挺方便...

据说HBase适合瘦高型数据，你们数据字段多吗？

thomaschen · 发表于 2016-3-2 09:13:45

我本来也打算采用Hbase的，不过我们车辆数据包解析出来的字段很多
包含:经纬度、省市地区、位置、速度、方向、开关门、OBD各种数据等等估计超过50个字段
简单学习Hbase后看到有人说Hbase适合瘦高型数据（字段少行数多），就有点拿不定注意了
现在暂时学习下Hadoop，看用HDFS存文件是否可行

thomaschen · 发表于 2016-3-7 11:42:01

本帖最后由 thomaschen 于 2016-3-7 11:43 编辑

请有这方面开发经验的高手指点下

一开始打算用Hbase，后来看到说适合矮胖型数据，我这个数据列有点多估计50+吧
然后想干脆就直接用HDFS，研究了下，HDFS不适合小文件，不支持文件修改
这样貌似更不适合我的业务规则了

我们对车辆数据的处理是这样的
每辆车每隔一段时间会发送一条数据到服务端，服务端对数据进行分析处理保存到文件（数据库）
一天大概5000条数据，一辆车一天存一个文档的话大概也就几十M吧，暂定为50M
（因为车辆数据经常需要读取出来后进行重算再写入，所以按天存储）
算一辆车的数据是不多的，但车辆一多起来数据就很多了
100万辆车一天5G数据，一个月就150G数据，一年5T
相比数据还有就是文件，有多少辆车一天就产生多少个文件
数据的写入是单点的可以暂不考虑并发问题（能并发最好了），但读取会比较多
基本上是对单车数据进行分析
只有统计时会对多车进行统计

hackeruncle · 发表于 2016-3-10 19:49:08

thomaschen 发表于 2016-3-7 11:42
请有这方面开发经验的高手指点下

一开始打算用Hbase，后来看到说适合矮胖型数据，我这个数据列有点多估 ...

你好，我们也是做车辆的，加我qq 1028344078 ，探讨探讨技术

图文精华

hadoop、hbase 、spark 我该选哪个呢？

已有(6)人评论

最佳新人

活跃会员

热心会员

推广达人

推荐 /2