deepflowio
diff --git a/‎agent/src/ebpf/crash-monitor.md‎
Lines changed: 36 additions & 18 deletions b/‎agent/src/ebpf/crash-monitor.md‎
Lines changed: 36 additions & 18 deletions
diff --git a/‎agent/src/ebpf/user/crash_monitor.c‎
Lines changed: 185 additions & 10 deletions b/‎agent/src/ebpf/user/crash_monitor.c‎
Lines changed: 185 additions & 10 deletions
@@ -90,9 +90,11 @@ crash monitor 是**诊断工具**，不是恢复工具。handler 在写完快照
 3. 为当前线程准备 altstack；
 4. 读取 `/proc/self/maps`，预缓存可执行 file-backed mappings；
 5. 记录 `/proc/self/exe` 对应的主程序路径；
-6. 为每个缓存模块预读取 GNU build-id（若存在）。
+6. 缓存 `/proc/self/comm` 对应的进程/task 名称，作为主线程或旧快照的兜底名字；
+7. 为每个缓存模块预读取 GNU build-id（若存在）；
+8. 对通过 monitored helper 创建的 worker thread，在进入真正工作函数前先把预期线程名写入 crash monitor 的线程本地缓存，再执行 `crash_monitor_prepare_thread()`。
 
-这些预处理让 handler 在崩溃当下只需要做“复制固定数据 + 写盘”，而不需要临时发现模块布局。
+这些预处理让 handler 在崩溃当下只需要做“复制固定数据 + 写盘”，而不需要临时发现模块布局，也不需要在 signal context 里再去读取 `/proc/thread-self/comm` 之类的名字信息。
 
 ### 3.2 Stage-1 的崩溃捕获（fatal signal context）
 
@@ -101,7 +103,7 @@ fatal signal 到来后，handler 在 altstack 上执行，主要完成：
 1. 从 `siginfo_t` 读取 `si_code`、`si_addr` 等故障信息；
 2. 从 `ucontext_t` 提取寄存器：`ip/sp/fp/lr/args[]`；
 3. 基于 frame pointer 做有界回溯；
-4. 将预缓存的 `modules[]`、`modules_count`、`executable_path` 复制到 record；
+4. 将预缓存的 `modules[]`、`modules_count`、`executable_path`、`thread_name` 复制到 record；
 5. 为每个 frame 填充：
    - `absolute_pc`
    - `module_index`
@@ -227,9 +229,12 @@ fatal signal 到来后，handler 在 altstack 上执行，主要完成：
 - `ip/sp/fp/lr`：顶层寄存器快照；
 - `args[]`：top frame 的 ABI 参数寄存器；
 - `executable_path`：主程序路径；
+- `thread_name`：崩溃线程名；如果是旧版本快照则该字段可能为空；
 - `modules_count` + `modules[]`：模块元数据；
 - `frames_count` + `frames[]`：栈帧数组。
 
+当前 snapshot ABI 已提升到 **v3**。v3 相比早期版本新增了 `thread_name` 字段，用于把崩溃线程（或至少主进程/task）的名字持久化到快照中，供下次启动时的 Stage-2 summary 直接打印。为了避免旧容器里残留的历史 `.crash` 文件因为结构体大小变化而完全无法消费，当前读取侧会兼容旧版 record，并在内存中升级成当前结构后再走统一的 Stage-2 符号化流程。
+
 ### 6.5 `args[]` 的能力边界
 
 `args[]` 只是 **top frame 的原始 ABI argument registers**，不代表：
@@ -363,9 +368,9 @@ handler 最终通过打开好的 `crash_snapshot_fd` 调用 `write()` 追加写
 启动时 Stage-2 会：
 
 1. 打开 `.crash` 文件；
-2. 按 `sizeof(struct crash_snapshot_record)` 循环读取；
+2. 循环读取 record header，并根据 `version/size` 判断当前条目属于新格式还是旧格式；
 3. 校验 `magic/version/size`；
-4. 对每条合法记录调用 `crash_symbolize_record()`；
+4. 对旧版本 record 做内存内升级，然后统一调用 `crash_symbolize_record()`；
 5. 读取结束后 `ftruncate(fd, 0)` 清空文件。
 
 如果出现：
@@ -376,18 +381,21 @@ handler 最终通过打开好的 `crash_snapshot_fd` 调用 `write()` 追加写
 
 ### 8.2 crash summary
 
-在真正逐帧符号化之前，Stage-2 先打印 crash summary，包含：
+在真正逐帧符号化之前，Stage-2 先打印 crash summary。当前 summary 除了基础崩溃元数据之外，还额外强调“这是哪个 task 崩的”和“当前磁盘上的可执行文件是否还是同一个镜像”。因此 summary 现在包含：
 
+- `task`：优先来自 snapshot 的 `thread_name`；如果消费的是旧版快照，则回退到 `executable_path` 的 basename；
 - `signal`
 - `si_code`
 - `pid`
 - `tid`
 - `executable`
+- `executable_md5`：Stage-2 对 `executable_path` 指向的当前文件做 best-effort MD5 计算，便于快速判断本次解析所面对的磁盘镜像是否与崩溃时记录的可执行路径一致；
 - `ip`
 - `fault_addr`
 - `frames`
+- `args[]`：紧跟在 summary 后打印 top frame 的原始 ABI 参数寄存器值。在 x86_64 上对应 `rdi/rsi/rdx/rcx/r8/r9`，在 aarch64 上对应 `x0-x7`。
 
-这样即使后续所有帧都无法完整恢复，至少仍能得到一条可读的崩溃摘要。
+这样即使后续所有帧都无法完整恢复，至少仍能得到一条可读的崩溃摘要；而 `task + executable_md5` 又进一步降低了“只知道哪个 pid/tid 崩了，但不知道到底是哪条线程、当前镜像是否已被替换”的排障成本。
 
 ### 8.3 单帧符号化的恢复顺序
 
@@ -463,20 +471,25 @@ Stage-2 的实际行为是：
 
 ### 8.7 当前输出示意
 
-可能出现的日志形态包括：
+当前 Stage-2 在输出一条恢复出的 crash report 时，会先打印一条明显的分隔线，再输出 summary 与逐帧日志，最后再打印一条相同的分隔线，便于在普通 agent 日志中快速定位整段 crash report。
 
-```text
-Recovered crash snapshot: signal=11 code=1 pid=123 tid=456 executable=/usr/bin/deepflow-agent ip=0x7f... fault_addr=0x0 frames=6
-```
+可能出现的日志形态包括：
 
 ```text
+=========================================================
+Recovered crash snapshot: task=deepflow-agent signal=11 code=1 pid=123 tid=456 executable=/usr/bin/deepflow-agent executable_md5=0123456789abcdef0123456789abcdef ip=0x7f... fault_addr=0x0 frames=6
+Recovered crash args: rdi=0x1 rsi=0x7f1234567000 rdx=0x0 rcx=0x2a r8=0x7f1234500000 r9=0x0
 Recovered crash frame[0]: pc=0x7f... module=/usr/bin/deepflow-agent rel=0x1234 symbol=foo+0x18 file=/root/project/foo.c:87 build_id=abcd...
-```
-
-```text
 Recovered crash frame[3]: pc=0x7f... module=/lib64/libc.so.6 rel=0x2a1f0
+=========================================================
 ```
 
+这里要注意三点：
+
+1. `task` 字段优先来自崩溃线程的缓存名字；如果消费的是旧版快照或名字不可得，则会回退到可执行文件名。
+2. `executable_md5` 是**Stage-2 在恢复时**对当前 `executable_path` 指向文件做的 best-effort 摘要，而不是 Stage-1 在崩溃当下持久化进 snapshot 的字段。因此它更适合作为“当前恢复环境中的镜像指纹”来辅助对比，而不是把它理解为崩溃瞬间的额外 on-disk ABI 数据。
+3. `args[]` 打印的是崩溃线程 top frame 的**原始寄存器参数值**，不是经过调试信息反推后的源码级函数参数列表。也就是说，它不能覆盖 stack-passed 参数、浮点参数、被优化掉的参数，older frames 的参数也不在这个输出保证范围内。
+
 ---
 
 ## 9. ELF / DWARF helper 能力
@@ -520,16 +533,18 @@ Recovered crash frame[3]: pc=0x7f... module=/lib64/libc.so.6 rel=0x2a1f0
 
 当前线程覆盖依赖 monitored helper：
 
-- 在线程真正进入工作函数前，统一调用 `crash_monitor_prepare_thread()`；
+- 在线程真正进入工作函数前，先把调用方传入的线程名写入 crash monitor 的线程本地缓存；
+- 然后统一调用 `crash_monitor_prepare_thread()`；
 - 再进入原始 worker routine。
 
 这样设计的好处：
 
 - 不需要每个线程入口重复手写 altstack 初始化；
 - 接入和审计更统一；
-- 新增 C/eBPF worker 时，只要继续复用现有 monitored helper，即可自动纳入 crash monitor 保护范围。
+- 新增 C/eBPF worker 时，只要继续复用现有 monitored helper，即可自动纳入 crash monitor 保护范围；
+- 崩溃时不需要在 signal handler 里再去访问 `/proc/thread-self/comm`，线程名已经在正常上下文里准备好了。
 
-需要注意的是：如果未来新增线程绕过了 monitored helper，那么它即使进程里安装了 fatal handler，也仍可能因为没有 altstack 而抓不到可靠快照。
+需要注意的是：如果未来新增线程绕过了 monitored helper，那么它即使进程里安装了 fatal handler，也仍可能因为没有 altstack 而抓不到可靠快照；同时它的线程名也不会自动进入 crash monitor 的线程本地缓存。
 
 ---
 
@@ -620,10 +635,13 @@ Stage-2 消费完成后会调用 `ftruncate()` 清空快照文件。因此如果
 - 顶层寄存器抓取；
 - frame-pointer 有界回溯；
 - 固定大小 crash snapshot ABI；
+- v2/v3 快照兼容消费；
 - 固定路径二进制快照写盘；
 - `/proc/self/maps` 模块缓存；
-- `modules[] / executable_path / module_index / rel_pc` 写入；
+- `modules[] / executable_path / thread_name / module_index / rel_pc` 写入；
 - 启动期旧快照消费；
+- Stage-2 crash summary 中的 task 名、可执行文件路径与 MD5 输出；
+- Stage-2 恢复日志前后分隔线输出；
 - Stage-2 ELF symbol 解析；
 - Stage-2 DWARF `file:line` 解析；
 - build-id aware external debuginfo 查找；
 
@@ -70,6 +70,36 @@
  */
 
 #define CRASH_ALTSTACK_SIZE (64 * 1024)
+#define CRASH_SNAPSHOT_VERSION_V2 2
+
+struct crash_snapshot_record_header {
+	uint32_t magic;
+	uint16_t version;
+	uint16_t arch;
+	uint32_t size;
+};
+
+struct crash_snapshot_record_v2 {
+	uint32_t magic;
+	uint16_t version;
+	uint16_t arch;
+	uint32_t size;
+	uint32_t signal;
+	int32_t si_code;
+	uint32_t pid;
+	uint32_t tid;
+	uint64_t fault_addr;
+	uint64_t ip;
+	uint64_t sp;
+	uint64_t fp;
+	uint64_t lr;
+	uint64_t args[CRASH_SNAPSHOT_ARG_REGS];
+	char executable_path[CRASH_SNAPSHOT_MODULE_PATH_LEN];
+	uint32_t modules_count;
+	uint32_t frames_count;
+	struct crash_snapshot_module modules[CRASH_SNAPSHOT_MAX_MODULES];
+	struct crash_snapshot_frame frames[CRASH_SNAPSHOT_MAX_FRAMES];
+};
 
 /*
  * Process-wide and thread-local state used by the crash monitor.
@@ -118,6 +148,8 @@ static struct crash_snapshot_module crash_cached_modules[
 	CRASH_SNAPSHOT_MAX_MODULES];
 static uint32_t crash_cached_modules_count;
 static char crash_cached_executable_path[CRASH_SNAPSHOT_MODULE_PATH_LEN];
+static char crash_cached_process_name[CRASH_SNAPSHOT_TASK_NAME_LEN];
+static __thread char crash_thread_name[CRASH_SNAPSHOT_TASK_NAME_LEN];
 
 /*
  * Fatal signals considered interesting enough to capture. These all represent
@@ -242,6 +274,47 @@ static int crash_cache_executable_path(void)
 	return ETR_OK;
 }
 
+static void crash_cache_process_name(void)
+{
+	ssize_t nread;
+	int fd;
+
+	crash_cached_process_name[0] = '\0';
+	fd = open("/proc/self/comm", O_RDONLY | O_CLOEXEC);
+	if (fd < 0)
+		return;
+	nread = read(fd, crash_cached_process_name,
+		     sizeof(crash_cached_process_name) - 1);
+	close(fd);
+	if (nread <= 0) {
+		crash_cached_process_name[0] = '\0';
+		return;
+	}
+	crash_cached_process_name[nread] = '\0';
+	crash_trim_trailing_newline(crash_cached_process_name);
+}
+
+static void crash_copy_thread_name(char *dst, size_t dst_size)
+{
+	if (dst == NULL || dst_size == 0)
+		return;
+	dst[0] = '\0';
+	if (crash_thread_name[0] != '\0') {
+		crash_copy_cstr(dst, dst_size, crash_thread_name);
+		return;
+	}
+	crash_copy_cstr(dst, dst_size, crash_cached_process_name);
+}
+
+void crash_monitor_set_thread_name(const char *name)
+{
+	if (name == NULL || name[0] == '\0') {
+		crash_thread_name[0] = '\0';
+		return;
+	}
+	crash_copy_cstr(crash_thread_name, sizeof(crash_thread_name), name);
+}
+
 static void crash_fill_module_build_id(struct crash_snapshot_module *module)
 {
 	uint32_t build_id_size = 0;
@@ -290,6 +363,7 @@ static int crash_cache_modules(void)
 	crash_cached_modules_count = 0;
 	memset(crash_cached_modules, 0, sizeof(crash_cached_modules));
 	(void)crash_cache_executable_path();
+	crash_cache_process_name();
 
 	maps = fopen("/proc/self/maps", "r");
 	if (maps == NULL)
@@ -354,6 +428,7 @@ static void crash_copy_cached_modules_to_record(struct crash_snapshot_record *re
 	record->modules_count = crash_cached_modules_count;
 	crash_copy_cstr(record->executable_path, sizeof(record->executable_path),
 			crash_cached_executable_path);
+	crash_copy_thread_name(record->thread_name, sizeof(record->thread_name));
 	for (i = 0; i < crash_cached_modules_count; i++)
 		crash_copy_module(&record->modules[i], &crash_cached_modules[i]);
 }
@@ -793,6 +868,105 @@ static int crash_install_signal_handlers(void)
 	return ETR_OK;
 }
 
+static void crash_upgrade_v2_record(struct crash_snapshot_record *dst,
+				 const struct crash_snapshot_record_v2 *src)
+{
+	if (dst == NULL || src == NULL)
+		return;
+
+	memset(dst, 0, sizeof(*dst));
+	dst->magic = src->magic;
+	dst->version = CRASH_SNAPSHOT_VERSION;
+	dst->arch = src->arch;
+	dst->size = sizeof(*dst);
+	dst->signal = src->signal;
+	dst->si_code = src->si_code;
+	dst->pid = src->pid;
+	dst->tid = src->tid;
+	dst->fault_addr = src->fault_addr;
+	dst->ip = src->ip;
+	dst->sp = src->sp;
+	dst->fp = src->fp;
+	dst->lr = src->lr;
+	crash_copy_bytes(dst->args, sizeof(dst->args), src->args,
+			 sizeof(src->args));
+	crash_copy_cstr(dst->executable_path, sizeof(dst->executable_path),
+			src->executable_path);
+	dst->modules_count = src->modules_count;
+	dst->frames_count = src->frames_count;
+	crash_copy_bytes(dst->modules, sizeof(dst->modules), src->modules,
+			 sizeof(src->modules));
+	crash_copy_bytes(dst->frames, sizeof(dst->frames), src->frames,
+			 sizeof(src->frames));
+}
+
+static int crash_read_next_pending_record(int fd,
+				 struct crash_snapshot_record *record,
+				 ssize_t *nread_out)
+{
+	struct crash_snapshot_record_header header;
+	ssize_t nread;
+	ssize_t remain;
+
+	if (record == NULL || nread_out == NULL)
+		return ETR_INVAL;
+	*nread_out = 0;
+
+	nread = read(fd, &header, sizeof(header));
+	if (nread <= 0) {
+		*nread_out = nread;
+		return (nread == 0) ? ETR_OK : ETR_INVAL;
+	}
+	if (nread != sizeof(header)) {
+		*nread_out = nread;
+		return ETR_INVAL;
+	}
+
+	if (header.magic != CRASH_SNAPSHOT_MAGIC) {
+		*nread_out = sizeof(header);
+		return ETR_NOTEXIST;
+	}
+
+	if (header.version == CRASH_SNAPSHOT_VERSION &&
+	    header.size == sizeof(*record)) {
+		struct crash_snapshot_record *on_disk = record;
+
+		memset(on_disk, 0, sizeof(*on_disk));
+		on_disk->magic = header.magic;
+		on_disk->version = header.version;
+		on_disk->arch = header.arch;
+		on_disk->size = header.size;
+		remain = (ssize_t)sizeof(*on_disk) - (ssize_t)sizeof(header);
+		nread = read(fd, (char *)on_disk + sizeof(header), (size_t)remain);
+		*nread_out = sizeof(header) + nread;
+		if (nread != remain)
+			return ETR_INVAL;
+		return ETR_OK;
+	}
+
+	if (header.version == CRASH_SNAPSHOT_VERSION_V2 &&
+	    header.size == sizeof(struct crash_snapshot_record_v2)) {
+		struct crash_snapshot_record_v2 old_record;
+
+		memset(&old_record, 0, sizeof(old_record));
+		old_record.magic = header.magic;
+		old_record.version = header.version;
+		old_record.arch = header.arch;
+		old_record.size = header.size;
+		remain = (ssize_t)sizeof(old_record) - (ssize_t)sizeof(header);
+		nread = read(fd, (char *)&old_record + sizeof(header),
+			     (size_t)remain);
+		*nread_out = sizeof(header) + nread;
+		if (nread != remain)
+			return ETR_INVAL;
+		crash_upgrade_v2_record(record, &old_record);
+		return ETR_OK;
+	}
+
+	*nread_out = sizeof(header);
+	return ETR_NOTEXIST;
+}
+
 static void crash_log_pending_record(const struct crash_snapshot_record *record)
 {
 	if (record == NULL)
@@ -836,23 +1010,24 @@ int crash_monitor_consume_pending_snapshots(void)
 		return ETR_INVAL;
 	}
 
-	while ((nread = read(fd, &record, sizeof(record))) == sizeof(record)) {
-		if (record.magic != CRASH_SNAPSHOT_MAGIC ||
-		    record.version != CRASH_SNAPSHOT_VERSION ||
-		    record.size != sizeof(record)) {
+	for (;;) {
+		int ret = crash_read_next_pending_record(fd, &record, &nread);
+
+		if (ret == ETR_OK && nread == 0)
+			break;
+		if (ret == ETR_OK) {
+			crash_log_pending_record(&record);
+			continue;
+		}
+		if (ret == ETR_NOTEXIST) {
 			ebpf_warning("Discard invalid crash snapshot record from %s\n",
 				     path);
 			continue;
 		}
-		crash_log_pending_record(&record);
-	}
-
-	if (nread < 0) {
 		close(fd);
 		return ETR_INVAL;
 	}
-	if (nread != 0)
-		ebpf_warning("Discard truncated crash snapshot file %s\n", path);
+
 	if (ftruncate(fd, 0) != 0) {
 		close(fd);
 		return ETR_INVAL;