分享

CDH集群突然变慢,ParcelUpdateService报错,求指点

cloudcat 发表于 2016-6-27 17:38:52 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 5 33099
本帖最后由 cloudcat 于 2016-6-27 17:41 编辑

问题现象:我的solrcloud服务,突然边很慢,我重启动solrcloud,问题依然存在。我重启了CDH问题才解决。
第一步: 分析solr的响应时间,发现凌晨4点到上午9点,响应时间很长,solr没有任何异常
第二步:我分析CDH日志,cloudera-scm-server 的日志,发现 4点到9点之间,总是报一个错误,错误信息如下
016-06-16 04:34:35,339 INFO ParcelUpdateService:com.cloudera.parcel.components.LocalParcelManagerImpl: Found files CDH-5.4.4-1.cdh5.4.4.p0.4-precise.parcel under /opt/cloudera/parcel-repo
2016-06-16 04:34:55,368 ERROR ParcelUpdateService:com.cloudera.parcel.components.ParcelDownloaderImpl: (1 skipped) Unable to retrieve remote parcel repository manifest
java.util.concurrent.ExecutionException: java.net.ConnectException: https://archive.cloudera.com/cdh5/parcels/5.5/manifest.json
    at com.ning.http.client.providers.netty.NettyResponseFuture.abort(NettyResponseFuture.java:297)
    at com.ning.http.client.providers.netty.NettyConnectListener.operationComplete(NettyConnectListener.java:104)
    at org.jboss.netty.channel.DefaultChannelFuture.notifyListener(DefaultChannelFuture.java:399)
    at org.jboss.netty.channel.DefaultChannelFuture.addListener(DefaultChannelFuture.java:145)
    at com.ning.http.client.providers.netty.NettyAsyncHttpProvider.doConnect(NettyAsyncHttpProvider.java:1041)
    at com.ning.http.client.providers.netty.NettyAsyncHttpProvider.execute(NettyAsyncHttpProvider.java:858)
    at com.ning.http.client.AsyncHttpClient.executeRequest(AsyncHttpClient.java:512)
    at com.ning.http.client.AsyncHttpClient$BoundRequestBuilder.execute(AsyncHttpClient.java:234)
    at com.cloudera.parcel.components.ParcelDownloaderImpl.getRepositoryInfoFuture(ParcelDownloaderImpl.java:534)
    at com.cloudera.parcel.components.ParcelDownloaderImpl.getRepositoryInfo(ParcelDownloaderImpl.java:492)
    at com.cloudera.parcel.components.ParcelDownloaderImpl.syncRemoteRepos(ParcelDownloaderImpl.java:344)
    at com.cloudera.parcel.components.ParcelDownloaderImpl$1.run(ParcelDownloaderImpl.java:416)
    at com.cloudera.parcel.components.ParcelDownloaderImpl$1.run(ParcelDownloaderImpl.java:411)
    at com.cloudera.cmf.persist.ReadWriteDatabaseTaskCallable.call(ReadWriteDatabaseTaskCallable.java:36)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.net.ConnectException: https://archive.cloudera.com/cdh5/parcels/5.5/manifest.json
    at com.ning.http.client.providers.netty.NettyConnectListener.operationComplete(NettyConnectListener.java:100)
    ... 16 more
Caused by: java.nio.channels.UnresolvedAddressException
    at sun.nio.ch.Net.checkAddress(Net.java:107)
    at sun.nio.ch.SocketChannelImpl.connect(SocketChannelImpl.java:649)
    at org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink.connect(NioClientSocketPipelineSink.java:139)
    at org.jboss.netty.channel.socket.nio.NioClientSocketPipelineSink.eventSunk(NioClientSocketPipelineSink.java:102)
    at org.jboss.netty.handler.ssl.SslHandler.handleDownstream(SslHandler.java:467)
    at org.jboss.netty.handler.codec.oneone.OneToOneEncoder.handleDownstream(OneToOneEncoder.java:55)
    at org.jboss.netty.handler.codec.http.HttpClientCodec.handleDownstream(HttpClientCodec.java:97)
    at org.jboss.netty.handler.stream.ChunkedWriteHandler.handleDownstream(ChunkedWriteHandler.java:108)
    at org.jboss.netty.channel.Channels.connect(Channels.java:642)
    at org.jboss.netty.channel.AbstractChannel.connect(AbstractChannel.java:204)
    at org.jboss.netty.bootstrap.ClientBootstrap.connect(ClientBootstrap.java:230)
    at org.jboss.netty.bootstrap.ClientBootstrap.connect(ClientBootstrap.java:183)
    at com.ning.http.client.providers.netty.NettyAsyncHttpProvider.doConnect(NettyAsyncHttpProvider.java:999)
    ... 13 more


      经过我的分析:别的时间段也会报这个错误(但是集群不慢,或者我没发现)-- ParcelUpdateService:com.cloudera.parcel.components.LocalParcelManagerImpl,但是没有下载/manifest.json的错误,我有一个集群离线安装的集群,/opt/cloudera/parcel-repo下面已经有了manifest.json,为啥他还要提示第一个个错误(java.util.concurrent.ExecutionException: java.net.ConnectException: https://archive.cloudera.com/cdh5/parcels/5.5/manifest.json
2016-06-17 12:34:35,346 INFO ParcelUpdateService:com.cloudera.parcel.components.LocalParcelManagerImpl: Found files CDH-5.4.4-1.cdh5.4.4.p0.4-precise.parcel under /opt/cloudera/parcel-repo
2016-06-17 12:34:45,368 ERROR ParcelUpdateService:com.cloudera.parcel.components.ParcelDownloaderImpl: (9 skipped) Unable to retrieve remote parcel repository manifest
java.util.concurrent.ExecutionException: java.util.concurrent.TimeoutException: No response received after 10
    at com.ning.http.client.providers.netty.NettyResponseFuture.get(NettyResponseFuture.java:223)
    at com.cloudera.parcel.components.ParcelDownloaderImpl.getRepoInfoFromFuture(ParcelDownloaderImpl.java:508)
    at com.cloudera.parcel.components.ParcelDownloaderImpl.getRepositoryInfo(ParcelDownloaderImpl.java:492)
    at com.cloudera.parcel.components.ParcelDownloaderImpl.syncRemoteRepos(ParcelDownloaderImpl.java:344)
    at com.cloudera.parcel.components.ParcelDownloaderImpl$1.run(ParcelDownloaderImpl.java:416)
    at com.cloudera.parcel.components.ParcelDownloaderImpl$1.run(ParcelDownloaderImpl.java:411)
    at com.cloudera.cmf.persist.ReadWriteDatabaseTaskCallable.call(ReadWriteDatabaseTaskCallable.java:36)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.util.concurrent.TimeoutException: No response received after 10
    at com.ning.http.client.providers.netty.NettyResponseFuture.get(NettyResponseFuture.java:215)
    ... 10 more

我的问题:
1  我的集群变慢原因是不是如下:ParcelUpdateService:com.cloudera.parcel.components.LocalParcelManagerImpljava.util.concurrent.ExecutionException: java.net.ConnectException: https://archive.cloudera.com/cdh5/parcels/5.5/manifest.json
2  其他时间段也会提示这个问题,为啥他不去下载
manifest.json,经过分析 他只要提示这个错误:java.util.concurrent.ExecutionException: java.net.ConnectException: https://archive.cloudera.com/cdh5/parcels/5.5/manifest.json,集群就会变慢
3 如果是
ParcelUpdateService问题,我该如何解决,是否可以关掉更新服务

已有(5)人评论

跳转到指定楼层
arsenduan 发表于 2016-6-27 21:09:59
楼主是否对cloudera manager做过修改。
贴出的信息,跟楼主一样的,参考
求助! 服务器突然断电后再启动CDH时cloudera-scm-server无法启动
http://www.aboutyun.com/forum.php?mod=viewthread&tid=18389


回复

使用道具 举报

easthome001 发表于 2016-6-27 21:45:29
根据楼主的描述,应该这只是一个可能原因之一。
这个更新应该是cloudera 更新服务,自动检测版本等问题,但是却一直连接不上。楼主的集群能否上网。

第二既然楼主集群重启效率才能提高。楼主需要查看下,内存是否有变化。找打耗内存的原因。
如果是楼主所说的上面的更新服务,可能他会一直拖死集群。所以重启后,在观察下。是否还有其它原因
回复

使用道具 举报

cloudcat 发表于 2016-6-28 00:06:10
arsenduan 发表于 2016-6-27 21:09
楼主是否对cloudera manager做过修改。
贴出的信息,跟楼主一样的,参考
求助! 服务器突然断电后再启动C ...

谢谢你的回答,我没有修改CDH

回复

使用道具 举报

cloudcat 发表于 2016-6-28 00:06:45
easthome001 发表于 2016-6-27 21:45
根据楼主的描述,应该这只是一个可能原因之一。
这个更新应该是cloudera 更新服务,自动检测版本等问题, ...

谢谢你的回答,我明天再分析一下。我的集群是不能上网的。
回复

使用道具 举报

easthome001 发表于 2016-6-28 22:05:17
cloudcat 发表于 2016-6-28 00:06
谢谢你的回答,我明天再分析一下。我的集群是不能上网的。

如果集群尝试联网试试,看看是否还会出现这种情况
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条