搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
交流区
›
技术交流
›
Sqoop
›
异常错误
›
sqoop导入数据问题求助
0
2
0
分享
sqoop导入数据问题求助
grinsky
2018-11-28 15:40:00
发表于
异常错误
[显示全部楼层]
阅读模式
关闭右栏
2
4508
本帖最后由 grinsky 于 2018-11-28 17:07 编辑
使用sqoop从sqlserver中将数据导入到hive中。
数据抽取并成功存到hdfs中,但在导入到hive中出错,出现字段类型不对,指定类型后虽然成功导入了,但有个疑问想询问下(google了下 没找到相关问题……)
sqoop抽数据是先将数据从sqlserver中抽取出来存放的hdfs上,然后在执行导入到hive中,
但这里有一个问题,如果后面导入失败了,我要如何才能使用之前已经抽取好的数据从新导入到hive,而不是删除文件在从头开始去sqlserver中抽取一遍
,因单表数据量有点大,交换机又low每次都要抽取一个多小时……
ps:在额外问个问题,关于spark sql的,建立jdbc后使用sparksql查询sqlserver,发现小表查询很快,但大表却非常慢(select * from table1 limit 10),
而且发现本地流量很大,想问下spark中的jdbc查询是怎么运行的?难道是把远程的数据库中表的数据全拉到本地然后在查询?还是只是把sql语句传到数据库,
然后等待接收结果?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
yaojiank
发表于 2018-11-28 19:51:37
可以了解下sqoop的append的模式
sqoop 常见问题及解决办法(sqoop增量倒入)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=9867
ps:在额外问个问题,关于spark sql的,建立jdbc后使用sparksql查询sqlserver,发现小表查询很快,但大表却非常慢(select * from table1 limit 10),
而且发现本地流量很大,想问下spark中的jdbc查询是怎么运行的?难道是把远程的数据库中表的数据全拉到本地然后在查询?还是只是把sql语句传到数据库,
然后等待接收结果?
猜测是这样,比如hive可以spark作为引擎,那么sqlserver同样也是借用spark为引擎,具体原理,楼主可以查看hive on spark.个人认为应该差不多
回复
使用道具
举报
显身卡
ledasion
发表于 2018-12-3 14:35:36
可以把字段类型都指定为 string
回复
使用道具
举报
显身卡
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
grinsky
高级会员
关注
50
主题
144
帖子
9
粉丝
TA的主题
kafka命令行工具卡住
2020-9-24
此 DataNode 未连接到其一个或多个 NameNode。
2019-12-12
sqoop导入数据问题求助
2018-11-28
spark2.3 java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator....
2018-4-28
hiveserver2自定义用户认证不生效
2018-2-11
24小时热文
矩阵分析引论罗家洪(第四版)
互联网大厂年终福利曝光:看看别人家老板怎
像高手一样发言:七种常见工作场景的说话之
携程允许员工春节回乡办公2个月
数据治理实施方案
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈