搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
大数据学习
›
Pig
›
hadoop家族Pig和Hive有什么不同啊?
0
5
2
分享
hadoop家族Pig和Hive有什么不同啊?
yuwenge
发表于 2013-12-1 07:43:11
[显示全部楼层]
阅读模式
关闭右栏
5
39886
对于开发人员,直接使用Java APIs可能是乏味或容易出错的,同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案,使得Hadoop编程变得更加容易。
HIVE简单来讲是为传统数据库工程师服务的,可以把sql转换为MapReduce
HIVE介于Pig和传统的RDBMS之间,和Pig一样,Hive也被设计为HDFS作为存储,但是他们之间有着显著的区别。Hive的查询语言HiveQL,是基于SQL的。任何熟悉SQL的人都可以轻松使用HiveQL写查询。和RDBMS相同。Hive要求所有数据必须存储在表中,表必须有模式,而模式由Hive进行管理。但是Hive允许为预先存在于HDFS的数据关联一个模式。所以,数据的加载步骤是可选的。
和Pig一样,Hive也不支持低时延查询。
Pig是一种编程语言,Pig相比Hive相对轻量,它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
Pig最大的作用就是对mapreduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin,在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining),Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的UDF(user-defined functions)。
Pig利用MapReduce将计算分成两个阶段,第一个阶段分解成为小块并且分布到每一个存储数据的节点上进行执行,对计算的压力进行分散,第二个阶段聚合第一个阶段执行的这些结果,这样可以达到非常高的
吞吐量
,通过不多的代码和工作量就能够驱动上千台机器
并行计算
,充分的利用计算机的资源,打消运行中的瓶颈。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(5)人评论
电梯直达
正序浏览
wubaozhou
发表于 2014-12-31 13:48:13
回复
使用道具
举报
显身卡
ymhua
发表于 2015-8-4 17:43:25
讲的很好,谢谢分享!
回复
使用道具
举报
显身卡
deveIT
发表于 2017-8-7 14:22:45
感谢分享
回复
使用道具
举报
显身卡
yngwiewang
发表于 2017-11-27 11:06:23
谢谢分享
回复
使用道具
举报
显身卡
a530491093
发表于 2019-1-14 15:45:39
详细,感谢分享!
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
yuwenge
版主
关注
519
主题
766
帖子
59
粉丝
TA的主题
39天大数据学习第18天
2018-10-8
Java 11正式发布,新特性解读
2018-9-26
精通 TensorFlow 1.x
2018-9-13
39天大数据学习第五天
2018-9-13
39天大数据学习第四天
2018-9-12
24小时热文
谷歌版o1模型发布
烧掉数学书:重新发明数学
大数据平台数据治理规划方案
求职,连接力比学历更管用
日志管理与分析权威指南
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈