如何在项目中使用Hadoop程序
例如,现在有一个项目,要将服务器上的某个文件夹下的所有文件使用Hadoop程序在某个时段自动上传到Hadoop集群中。笔者的做法如下:1.该项目的文件夹是网站的日志文件,要定时进行日志到集群的备份。将服务器和Hadoop集群通过路由器连接起来2.在eclipse中使用插件,编写java程序,远程连接集群,实现上传一个小文件的功能,进行测试
3.右击该项目,选择run on hadoop。此时便可以成功上传了。
---------------------------------------------------
那么问题来了。。。。。
----------------------------------------
1.如何在网站编写一个类似于servlet的程序,使得能够定时上传该文件夹下的文件?
2.Hadoop程序是否支持servlet类似的执行方式,响应web请求?
3.如何设置才能够默认是“Run on Hadoop”,而不需要人为右击项目等等,实现自动化上传。还望各位不吝赐教。
楼主想的优点复杂。
首先方式有很多种:
1.通过shell的方式。
这个需要楼主懂shell编程.
也就是首先会使用Linux shell编程
然后懂hadoop shell。这两者结合起来。
编程时间短,效率还高
2.通过Java的方式
Java整体分为两种
1.通过web的方式
2.通过hadoop jar的方式提交job.
1.通过web的方式
使用spring hadoop
Spring for Apache Hadoop 2.1 版本介绍
Spring for Apache Hadoop介绍及官方文档下载
当然也有Servlet
如何将Hadoop API 引入到 Servlet Tomcat
还有另外一种方式:
直接使用hadoop api
hadoop网盘小项目介绍及相关代码下载2
http://www.aboutyun.com/thread-10423-1-1.html
hadoop网盘小项目介绍及相关代码下载3
http://www.aboutyun.com/thread-10424-1-1.html
hadoop网盘小项目介绍及相关代码下载1
http://www.aboutyun.com/thread-10422-1-1.html
2.通过Java api
详细参考:
hadoop实战:Java对hdfs的编程
HDFS的Java访问接口
本帖最后由 pig2 于 2015-6-1 14:37 编辑
大牛,能否指点下,这些需求如何实现,小弟感激不尽
阿飞 发表于 2015-6-1 11:56
楼主想的优点复杂。
首先方式有很多种:
1.通过shell的方式。
太详细了,十分感谢!
lq_witness 发表于 2015-6-1 14:07
大牛,能否指点下,这些需求如何实现,小弟感激不尽
建议重新开贴:
数据导入导出hive,这个网上资料很多
可以使用sqoop
sqoop导入mysql数据到hive中
使用sqoop文件 --options-file 导入hive数据
hive统计信息通过sqoop导入mysql
合并导入,你把两个文件合并下,在导入吧
跟上面差不多,就是有个整合的过程
hive权限控制网上资料到处是
hive权限控制介绍
hive查询分页,不是太多。但是只要明白hbase分页或则关系数据库分页,应该不难
hbase分页应用场景及分页思路与代码实现
页:
[1]