kernel: XFS (sdj1): xfs_log_force: error -5 returned

2019年3月24日 132 次阅读 0 条评论 0 人点赞

前言

目前Push小组推送文章时使用的Storm、Hadoop和HBase等基础设施都是由其小组自己维护,连续两周周末都出现了实时计算集群崩溃的情况,个别机器分配到Storm Worker后会出现无法连接其他机器的提示。考虑到由于计算资源紧张,其Storm集群由A和B两个DC服务器构成,而且Push小组的集群中部署有Mesos/Marathon/Docker/HDFS/HBase等众多组件,问题查起来比较费劲,为此首先联系了公司运维帮忙查看两个机房之间网络和带宽情况,得到的反馈是没有问题,但是某一台机器TIME_WAIT居然可以到21万。

顺藤摸瓜

除了上述信息外,运维还透露了一下TIME_WAIT较多的机器ip和端口为10.12.6.6并且端口为50010,除了Storm日志中呈现的其他服务器无法连接该台服务器外,隐约记得Push组同学说起该IP上部署有DataNode且当天掉线了一次(没有保留好原始日志,暂时不呈现),于是登录到服务器上面进行问题确认。首先检查磁盘,内存,负载等常见指标:

并且对组网机器抽样进行ping测试然而没有发现明显异常,由于采用Mesos+Docker部署的Storm计算集群,因此决定翻翻日志看是否可以发现有价值的线索:

从日志中发现了标志性提示:kernel: XFS (sdj1): xfs_log_force: error -5 returned.看来是其中一块SSD-/dev/sdj1对应的是ssd9似乎是坏掉了,再次进行确认:

至此基本可以确认问题所在,可能有的同学会想一块坏掉的SSD为什么会和网络挂上钩,这里请注意50010端口哦!为了恢复SSD并实现重新挂载进行如下尝试:

再次启动Strom任务发现Worker分配和网络连接恢复正常,并且此时TIME_WAIT数量大大减少,任务恢复正常并且开始消费堆积数据。

 

标签:
最后编辑:2019年3月24日

可以担当一些

文章评论(0)