linux内核kdump,linux内核崩溃之kdump机制

最新推荐文章于 2025-06-03 11:20:20 发布

整理专家 coco

最新推荐文章于 2025-06-03 11:20:20 发布

阅读量664

点赞数

文章标签： linux内核kdump

本文介绍了Kdump机制，一种可靠的内核转存技术，用于捕获Linux系统崩溃时产生的内存转储。文章详细解释了标准内核与捕获内核的作用及配置过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

kdump相关概念

standard(production) kernel 生产内核，是指我们正在使用的kernel。

Crash(capture)kernel 捕获内核，linux系统崩溃后使用的内核。

Kdump需要配置两个不同目的的kernel，其中一个我们在这里称作standard(production) kernel；另外一个称之为Crash(capture)kernel。生产内核是捕获内核服务的对像。捕获内核会在生产内核崩溃时启动起来，与相应的 ramdisk (虚拟内存盘：将内存模拟成硬盘的技术)一起组建一个微环境，用以对生产内核下的内存进行收集和转存。

什么是kdump

Kdump 的概念出现在 2005 左右，是迄今为止最可靠的内核转存机制，主要是用来捕获kernel crash时候产生的crash dump。

kdump 的优势

高可靠性

崩溃转储数据可从一个新启动内核的上下文中获取，而不是从已经崩溃内核的上下文。

kdump的实现原理

kdump机制主要包括两个组件：kdump和kexec

kdump 使用 kexec 启动到捕获内核，以很小内存启动以捕获转储镜像。生产内核保留了内存的一部分给捕获内核启动用。由于 kdump 利用 kexec 启动捕获内核，绕过了 BIOS，所以第一个内核的内存得以保留。这是内核崩溃转储的本质。

简单来说，standard kernel会正运行时发生crash，而crash(capture) Kernel 会被用来捕获production kernel crash时候产生的crash dump。

什么时kexec

kexec 原来的目的是为了节省 kernel 开发人员重启系统的时间，谁能想到这个“偷懒”的技术却孕育了最成功的内存转存机制。

kexec 是一个快速启动kernel的机制，它运行在某一正在运行的kernel中，启动一个新的kernel(这里是crash kernel)，而且不用重新经过BIOS 就可以完成启动。因为一般BIOS都会花费很长的时间，尤其是在大型并且同时连接许多外部设备的Server上的环境下，BIOS会花费更多的时间

它包括 2 个组成部分：一是内核空间的系统调用 kexec_load，负责在生产内核(production kernel 或 first kernel)启动时将捕获内核(capture kernel 或 sencond kernel)加载到指定地址。二是用户空间的工具 kexec-tools，他将捕获内核的地址传递给生产内核，从而在系统崩溃的时候能够找到捕获内核的地址并运行。没有 kexec 就没有 kdump。先有 kexec 实现了在一个内核中可以启动另一个内核，才让 kdump 有了用武之地。

如何访问捕获内存

在内核崩溃之前所有关于核心映像的必要信息都用 ELF 格式编码并存储在保留的内存区域中。ELF 头所在的物理地址被作为命令行参数(fcorehdr=)传递给新启动的转储内核。

在 i386 体系结构上，启动的时候需要使用物理内存开始的 640K，而不管操作系统内核转载在何处。因此，这个 640K 的区域在重新启动第二个内核的时候由 kexec 备份。

在第二个内核中，“前一个系统的内存”可以通过两种方式访问：

1. 通过 /dev/oldmem 这个设备接口。

一个“捕捉”设备可以使用“raw”(裸的)方式 “读”这个设备文件并写出到文件。这是关于内存的 “裸”的数据转储，同时这些分析 / 捕捉工具应该足够“智能”从而可以知道从哪里可以得到正确的信息。ELF 文件头(通过命令行参数传递过来的 elfcorehdr)可能会有帮助。

2. 通过 /proc/vmcore。

这个方式是将转储(生产内存)输出为一个 ELF 格式的文件，并且可以使用一些文件拷贝命令(比如 cp，scp 等)将信息读出来。同时，gdb 可以在得到的转储文件上做一些调试(有限的)。这种方式保证了内存中的页面都以正确的途径被保存 ( 注意内存开始的 640K 被重新映射了 )。

kdump的实现流程

kdump的安装配置

目前RHEL 5、6和SLES 10 linux distribution都会默认安装kdump。

但是我们还是首先简单了解下安装kdump需要哪些条件：

首先，需要在编译standard(production) kernel 之前，需要指定kernel crash dumping 相关的一组compile 选项

其次，需要在编译好的standard kernel之上，安装kernel-kdump package，这个package包含了crash(capture)kernel，crash kernel在standard kernel crash的时候被启动，因此提供了环境用来capture正处于crash中的standard kernel的dump信息。

软件包说明

package name package info

kdump　　　　　　　　　　　　kdump软件包

kexec-tools kexec 软件包，kdump用到的各种工具都在此包中

kernel-debuginfo crash analysis package 用来分析 vmcore 文件

配置Kdump：

1 确定kdump相关的package已经安装好：

[root@bl25p-19 sysconfig]# rpm -qa | grep kdump (rhel7 中默认已安装)

system-config-kdump-1.0.14-4.el5

[root@bl25p-19 sysconfig]# rpm -qa | grep kexec

kexec-tools-1.102pre-126.el5

[root@bl25p-19 sysconfig]# rpm -qa | grep debuginfo (rhel7 中默认已安装)

kernel-debuginfo-common-2.6.18-238.el5

kernel-debuginfo-2.6.18-238.el5

配置grub，在启动时为内核传递参数，来告知内核如何为crash kernel预留内存

title Red Hat Enterprise Linux Server (2.6.18-238.el5)

root (hd0,0)

kernel /vmlinuz-2.6.18-238.el5 ro root=/dev/VolGroup00/LogVol00 rhgb quiet crashkernel=128M@16M #(XXX@YYY, xxx为大小， yyy为offset)

initrd /initrd-2.6.18-238.el5.img

配置/etc/kdump.conf，来设定crash dump最终为存在何处，具体参见man 5 kdump.conf。默认是存放在/var/crash/[crash generated date]/vmcore

4 设置kdump服务开机是自动启动

systemctl enable kdump #开机自启动

systemctl start kdump # 启动kdump服务

5 可以通过 kexec 加载内核镜像，让系统准备好去捕获一个崩溃时产生的 vmcore。可以通过 sysrq 强制系统崩溃。

echo “c” > /proc/sysrq-trigger

这造成内核崩溃，如配置有效，系统将重启进入 kdump 内核，当系统进程进入到启动 kdump 服务的点时，vmcore 将会拷贝到你在 kdump 配置文件中设置的位置。RHEL 的缺省目录是 : /var/crash；SLES 的缺省目录是 : /var/log/dump。然后系统重启进入到正常的内核。一旦回复到正常的内核，就可以在上述的目录下发现 vmcore 文件，即内存转储文件。

可以使用之前安装的 kernel-debuginfo 中的 crash 工具来进行分析