GLib2 错误排查实战：如何优雅地获取程序的调用堆栈

四月 17 2026

背景知识

在基于 GLib (glib2) 开发的 C/C++ 应用程序中，日志和错误处理有着独特的设计哲学。GLib 将错误分为不同的级别（如 Debug, Info, Warning, Critical, Error）。默认情况下，遇到严重的逻辑错误（Critical）或警告（Warning）时，GLib 只会输出一条日志信息并尝试继续执行，而不是直接引发系统崩溃。

现象与定位痛点

这种“宽容”的机制在生产环境中保证了程序的存活率，但在开发和调试阶段却是一个痛点：当程序输出 g_critical 或 g_warning 时，“第一案发现场”往往瞬间流失。开发者如果想通过堆栈来反推错误触发的上下文，会发现系统并没有崩溃，也就没有系统级别的 Core Dump 生成，极大地增加了问题排查与定位的难度。

GLib 本身并没有提供一个能够直接在终端自动喷吐堆栈的环境变量。那么，在发生错误时，我们应该如何准确获取当时的上下文堆栈呢？

解决方案一：环境变量配合调试器获取堆栈（非侵入式）

最官方且非侵入式的做法是：通过环境变量将非致命错误转化为致命错误（Fatal Error），迫使程序主动中断（Abort），随后利用调试器提取现场。

1. 环境准备与变量注入

你可以通过设置 G_DEBUG 环境变量，让程序在触发指定的日志级别时产生 SIGABRT 信号：

**G_DEBUG=fatal-warnings**：一旦程序调用 g_warning()，立刻触发中断。
**G_DEBUG=fatal-criticals**：一旦程序调用 g_critical()（例如常见的指针非空断言 g_return_if_fail），立刻触发中断。

2. 获取与解析堆栈

方案 A：实时调试模式（GDB）

适用于可以稳定复现问题的开发环境：

# 携带环境变量启动 GDB
G_DEBUG=fatal-criticals gdb --args ./your_program

# 运行程序
(gdb) run

# 当程序因为 Critical 错误发生 abort 停下时，输入 bt 查看堆栈
(gdb) bt

方案 B：事后分析模式（Core Dump）

适用于偶现问题或服务器环境。首先确保系统已开启 Core Dump 文件生成（例如 ulimit -c unlimited）。当程序携带 G_DEBUG=fatal-criticals 运行并发生 Abort 后，系统会生成 core 文件。

事后只需利用 GDB 解析即可：

gdb ./your_program core
(gdb) bt

3. 辅助定位手段：开启详细追踪日志

若崩溃瞬间的堆栈不足以说明完整的业务流向，可以通过环境变量开启底层的调试日志：

执行 G_MESSAGES_DEBUG=all ./your_program 可以开启程序内所有模块的 Debug 和 Info 级别日志。
执行 G_MESSAGES_DEBUG=domain_name 可以仅过滤特定日志域的信息，减少信噪比。

解决方案二：自定义日志处理器自动打印堆栈（代码级侵入）

如果你希望达到类似 Java 或 Python 那样的体验——程序在遇到 g_critical 时不仅不会退出，还能直接将函数调用堆栈打印在控制台上，那么可以通过在代码中注册自定义日志处理器 (Log Handler) 来拦截并处理错误。

实现思路

拦截日志：利用 g_log_set_handler 监听默认域的 Critical 和 Warning 级别日志。
保留默认行为：在回调中先调用 g_log_default_handler 打印原始错误内容。
获取堆栈：利用 Linux glibc 提供的 backtrace() 捕获当前线程的调用栈。
符号解析与输出：通过 backtrace_symbols() 将内存地址翻译为可读的函数名并打印。

完整代码示例

#include <glib.h>
#include <execinfo.h>
#include <stdlib.h>

// 自定义日志处理函数
static void my_log_handler(const gchar *log_domain, GLogLevelFlags log_level, 
                           const gchar *message, gpointer user_data) {
    // 1. 保留 GLib 的默认输出信息
    g_log_default_handler(log_domain, log_level, message, user_data);

    // 2. 如果是 Critical 或 Warning 级别的错误，触发堆栈打印
    if (log_level & (G_LOG_LEVEL_CRITICAL | G_LOG_LEVEL_WARNING)) {
        g_print("\n--- Stack Trace ---\n");
        
        // 使用 glibc 提供的 backtrace 获取调用栈
        void *array[20];
        size_t size = backtrace(array, 20);
        char **strings = backtrace_symbols(array, size);
        
        if (strings != NULL) {
            // 逐级打印堆栈信息
            for (size_t i = 0; i < size; i++) {
                g_print("%s\n", strings[i]);
            }
            free(strings); // backtrace_symbols 内部使用 malloc 分配了内存，需手动释放
        }
    }
}

int main(int argc, char *argv[]) {
    // 注册拦截处理器，接管默认日志域 (NULL) 的 Critical 和 Warning
    g_log_set_handler(NULL, G_LOG_LEVEL_CRITICAL | G_LOG_LEVEL_WARNING, my_log_handler, NULL);
    
    // 模拟测试：触发一个 Critical 错误，程序将在此处自动打印堆栈并继续执行
    g_critical("This is a test critical error to trigger stack trace!");
    
    return 0;
}

重要编译提示：

编译上述代码时（尤其是使用 GCC），请务必加上 -rdynamic 链接参数。例如：

gcc main.c $(pkg-config --cflags --libs glib-2.0) -rdynamic -o my_program

只有加上此参数，可执行文件才会向动态符号表中导出所有的全局符号，backtrace_symbols 才能成功将函数地址解析出具体的函数名。否则，堆栈信息中将只能看到一堆十六进制的内存地址。

总结

在基于 GLib 的应用开发中，想要排查异常并获取代码执行堆栈，主要有两条路径：

**快速排查（官方推荐）**：无需改动任何一行代码，直接注入 G_DEBUG=fatal-criticals 环境变量将非致命异常强转为崩溃退出，配合 GDB 或 Core Dump 顺藤摸瓜。这种方式最干净，适合开发调试期。
**定制输出（灵活友好）**：在业务初始化阶段通过 g_log_set_handler 与 backtrace 进行深度结合，实现“报错不退出且实时打印堆栈”。这种方式非常适合集成在长生命周期的服务程序中，便于收集线上日志或对接监控报警平台。