记录一次物理服务器内核报告CPU stuck的问题

2025-12-05 22:08:00
丁国栋
原创 7
摘要:本文记录一次内核报告watchdog: BUG: soft lockup - CPU#23 stuck for XXs!的问题。

故障现象:

可以使用SSH登录服务器,发现系统平均负载很高,达到几千个水平,而且一直在增长。控制台不断发出消息提示:

Message from syslogd@s750 at Dec  4 14:18:01 ...
 kernel:[48065808.945951] watchdog: BUG: soft lockup - CPU#23 stuck for 63s! [kworker/u194:5:2228971]
通过 top 查看 CPU#23 的sys利用率 (内核态)是100%。检查磁盘状态正常,iowait略高,但释放了使用IO的进程后iowait降低到正常水平。

登录控制台,显示如下图所示,但鼠标键盘都无法操作。

故障解决:

先在SSH界面中重新启动服务器,通过iDARC控制台发现并没有响应。过了大约半小时后,通过 iDRAC 冷启动服务器电源,服务器重新启动,问题消失,目前状态正常。

后续:

后来和运维的小伙伴们聊起这个问题,很多小伙伴都说就是需要重启,因为某个CPU核心已经忙碌的无法响应其他诸如鼠标键盘了,而且也遇到了多次。还是其他小伙伴见多识广,虽然AI目前惊艳众人,但人的经验和见识永远比AI要快一步。在未来很长时间内人工智能和人类智慧还会长期并存,所谓的超级个体只能是某个领域的专家,在AI的加持下在这个领域和相邻领域做到极致。而超级团队是由众多的超级个体构成的,在计算机科学、软件工程领域内又有无数的超级团队和超级个体,人工智能和人类智慧都有它的价值。

发表评论
博客分类