Post-mortem debugging 一直是一个很有趣的方向,它可以很大程度上解决 bug 不复现或者难复现的问题。一个很常见的例子是,在 CI 上一个 test fail 了,但是本地怎么跑都没问题,就很痛苦。logging 这个事情永远没有一个正确的量,少了信息不够,多了信息找不到。我们期待的是可以“重建”这个测试挂掉时候的状态(当然更理想的是把整个程序的运行过程重建,那是个更大的话题了)。
我在这个领域做了不少尝试,然后最近做出来一个自己还比较满意的东西,coredumpy
https://github.com/gaogaotiantian/coredumpy
这是个解决 python 的 post-mortem debugging 的工具。它的核心点其实就是一个,可以对程序当前运行状态做一个 snapshot ,然后保存 dump ,在进程结束后用这个 dump 文件去重建。
这个概念本身并不算新,在一些 native 语言里是存在的。python 这边也有人做过一些尝试,但是效果都不好。一个核心原因就是 Python 对象之间的引用关系比较复杂,不太好重建。而之前大量的尝试基本都是基于 pickle 的,pickle 有几个核心问题导致它上不了 production:
- 最重要的,有些 object 是没法 pickle 的,而 pickle 是不支持 partial pickle 的,直接导致你项目里有一个东西没法 pickle 就 dump 不出来东西
- pickle 有安全问题,这是 by design 的,没法避免
- pickle 面对一些 recursion 很重的 structure 的时候可能直接爆栈
- pickle 在还原数据的时候,是需求同样的环境的,这就减弱了“拿个 dump 直接看”的能力
所以 coredumpy 是完全抛弃了 pickle ,用另一种方式来试图解决这个问题——我可以没办法重建全部数据,但是我一定要能 dump 出来,并且保留更多的信息。
拿到这个 dump 之后,可以用 vscode 直接打开(会调用 vscode 自身的 debugger ),也可以用 pdb 打开。同时还做了个 github actions ,可以在 github actions 里直接产生一个 vscode link ,然后直接复制到浏览器就可以在 vscode 打开这个 dump 了,连手动下载都不需要。
项目本身还在做,感兴趣的小伙伴可以试一下,如果有反馈也可以直接在 github 提 issue~