记录一次物理服务器内核报告CPU stuck的问题
- 2025-12-05 22:08:00
- 丁国栋
- 原创 8
故障现象:
可以使用SSH登录服务器,发现系统平均负载很高,达到几千个水平,而且一直在增长。控制台不断发出消息提示:
Message from syslogd@s750 at Dec 4 14:18:01 ... kernel:[48065808.945951] watchdog: BUG: soft lockup - CPU#23 stuck for 63s! [kworker/u194:5:2228971]通过 top 查看 CPU#23 的sys利用率 (内核态)是100%。检查磁盘状态正常,iowait略高,但释放了使用IO的进程后iowait降低到正常水平。
登录控制台,显示如下图所示,但鼠标键盘都无法操作。
故障解决:
先在SSH界面中重新启动服务器,通过iDARC控制台发现并没有响应。过了大约半小时后,通过 iDRAC 冷启动服务器电源,服务器重新启动,问题消失,目前状态正常。
后续:
后来和运维的小伙伴们聊起这个问题,很多小伙伴都说就是需要重启,因为某个CPU核心已经忙碌的无法响应其他诸如鼠标键盘了,而且也遇到了多次。还是其他小伙伴见多识广,虽然AI目前惊艳众人,但人的经验和见识永远比AI要快一步。在未来很长时间内人工智能和人类智慧还会长期并存,所谓的超级个体只能是某个领域的专家,在AI的加持下在这个领域和相邻领域做到极致。而超级团队是由众多的超级个体构成的,在计算机科学、软件工程领域内又有无数的超级团队和超级个体,人工智能和人类智慧都有它的价值。
发表评论