基于eBPF的procstat软件追踪程序垃圾回收（GC）事件

🕗 发布于 2024-09-20 21:58 开发语言 procstat ebpf linux gc

在性能敏感的应用程序中，偶尔遇到程序无故卡顿是开发者们常见的挑战之一。这种现象可能会表现为突然的延迟、系统响应时间增加、吞吐量的下降。这类问题的根源可能是编程语言的垃圾回收（Garbage Collection，GC）导致，尤其是在内存管理上有着较高压力的情况下。
然而，识别和跟踪这些GC事件并非易事。GC发生时，程序线程会暂停执行（如Golang的Stop-the-World，Java的GC暂停），这一操作可能影响到应用的性能表现。在传统的监控方法中，很难准确捕捉到这些事件的开始与结束。为了有效应对这种挑战，基于eBPF的procstat软件提供了一种强大且高效的追踪机制，帮助开发者轻松掌握GC事件的执行情况，尤其是在性能敏感场景下。

背景：GC与程序卡顿

垃圾回收是现代编程语言（如Java、Go）中的核心机制，帮助开发者自动管理内存，释放不再使用的对象。然而，GC并非免费的操作，它需要消耗CPU资源并暂停正在执行的线程以清理内存，尤其是在Stop-the-World的GC模型中，所有工作线程在垃圾回收期间都会被暂停。这种暂停，虽然通常非常短暂，但在高并发、高负载的系统中，即使是几毫秒的GC暂停也可能导致显著的性能抖动。
例如，在一个高频交易系统中，每一次停顿都会影响交易的执行时间，从而造成经济损失。在这种情况下，准确定位和监控GC事件的影响就显得至关重要。然而，常见的性能分析工具往往难以做到对GC暂停的精细追踪，这时，基于eBPF的procstat软件就能够大显身手。

eBPF简介

eBPF（Extended Berkeley Packet Filter）是一种强大的内核技术，最初用于网络数据包过滤。如今，eBPF已经发展成为一种通用的内核编程平台，广泛应用于性能监控、安全审计、网络分析等领域。它的强大之处在于能够在内核中高效、灵活地运行用户定义的代码，同时对系统性能的影响极小。eBPF允许开发者编写自定义的代码，并将这些代码动态加载到内核中，以监控各种系统级和应用级事件。由于eBPF程序在内核中运行，因此它能够以极低的开销实时捕获事件并反馈给用户。

uprobe：用户态函数监控
uprobe 是eBPF提供的一种能力，专门用于监控用户态程序中的特定函数。通过设置 uprobe、uretprobe，开发者可以在目标程序的函数被调用或退出时，自动触发预先定义的eBPF程序，从而捕获该函数的执行情况。其特点有：

函数挂钩：uprobe 可以挂钩到任意用户态函数，无论是标准库函数还是用户自定义函数。当该函数被调用时，uprobe 会触发EBPF程序的执行。
精确捕获：uprobe 能够精确捕获函数的调用时间、参数、返回值等关键信息。这对性能分析和调试非常有帮助。
轻量级监控：与传统的调试工具相比，uprobe 和eBPF结合后的监控方案不会影响程序的功能，对性能影响也很小，尤其是监控不常运行到的异常分支，如本文介绍的垃圾回收，几乎不影响程序性能。

在本文中，eBPF被用来捕获程序的GC事件，通过与 uprobe 结合，实现对程序的垃圾回收操作的实时监控。

procstat软件简介

procstat是一款基于eBPF的监控软件，运行在Linux平台，主要用于跟踪目标程序的运行状态，并报告异常指标，是分析程序性能问题的一大利器。procstat软件能够用于追踪golang及jvm程序的垃圾回收（GC)情况，实时捕捉垃圾回收相关信息。当检测到垃圾回收的时间超过阈值时，procstat会在日志中输出详细的信息，包括回收时长、回收次数等，帮助开发者快速定位问题根源。接下来我们将通过一个小实验来展示一下procstat软件是如何追踪垃圾回收的。此软件可以在以下链接中下载到，并提供免费试用，后续还会有版本更新迭代，使用时需要能连互联网环境。
Github下载链接

GC示例代码

我们通过一个简单的 golang 程序来演示如何使用 procstat 追踪垃圾回收时间。以下是我们的示例程序：

package main
import (
    "time"
)
func main() {
    for {
        allocateMemory()
        time.Sleep(100 * time.Millisecond)
    }
}
func allocateMemory() []byte {
    mem := make([]byte, 1024*1024)
    mem = nil
    return mem
}

这个程序简单地在一个无限循环中每次申请1MB内存空间，然后sleep 100毫秒，之后不再保留这块内存的引用。会触发垃圾回收操作。

使用procstat追踪GC事件

编译并启动上述代码后，使用procstat软件来监控该程序的GC行为。本实验中，编译后的程序名为test。首先，将procstat软件的配置中将gc的阈值设置为0，单位是纳秒，意思是当进程发生gc就会输出日志。
配置设置
配置文件位置在procstat目前下的conf目录中，名为config.json。

    "gc_stat": {
        "gc_duration": 0,
        "libjvm_path": ""
    }

启动被监控的test小程序后，我们可以通过以下命令启动procstat进行监控：sh start.sh -p 进程号。其中，<进程号>是正在运行的test程序的进程ID。
运行程序

[root@VM-8-2-centos go_gc]# ls
test  test.go
[root@VM-8-2-centos go_gc]# ./test &
[1] 3983572
[root@VM-8-2-centos go_gc]#
[root@VM-8-2-centos go_gc]# cd /root/work_dir/procstat/bin
[root@VM-8-2-centos bin]# sh start.sh -p 3983572
Start Loading...!
Start Stating...!

启动监控后（输出“Start Stating…!”后就已开始监控了），procstat会持续监控该程序的运行状态，并在日志中记录时间超过配置文件中设定的阈值的GC操作（时长可配置）。

procstat软件日志

一、接下来我们查询procstat的日志信息，并搜索[GC]关键字。
从上图的日志中可以看出已经成功地捕获到了test进程的GC操作，我们对第1行日志分析一下：
（1）GC发生的时间是12:19:47.664795232，精确到纳秒级别；
（2）发生GC的进程名称是test，进程id是3983572，线程id是3983574；
（3）发生GC的时长是79479纳秒。
二、搜索[GC STAT]关键字。
GC STAT 上图是每秒输出一次的GC统计信息，可以看出已经成功地捕获到了test进程的GC操作，我们对第1行日志分析一下：
（1）发生GC的进程名称是test，进程id是3983572，线程id是3983572；
（2）当秒该线程发生GC的总时长是63115纳秒；
（3）当秒该线程每次的平均GC时长是63115纳秒；
（4）当秒该线程发生的最长的GC时长是63115纳秒；
（5）当秒该线程共发生1次GC；
（6）当秒该线程发生的最长的GC是第1次GC。

总结

procstat 是一个功能强大的工具，通过 eBPF 技术实现了对程序中GC时间的全面追踪。通过本文的介绍和示例，相信你已经对 procstat 有了基本的了解。希望你能在实际工作中充分利用这个软件，提高程序的性能和稳定性。
procstat软件还可以监测很多的程序异常状态，随着eBPF技术的不断发展和procstat软件不断的迭代，希望能够帮助大家定位程序的性能问题和异常问题，进一步提升对软件和操作系统的监控能力，欢迎大家试用，有问题请私信我，共同学习、交流，共同进步！
推荐文章：
基于eBPF的procstat软件追踪程序Offcpu时间
 基于eBPF的procstat软件追踪等待锁和持有锁的时间
 基于eBPF的procstat软件定位软件死锁
 基于eBPF的procstat软件追踪C++ STL容器扩容

原文地址：https://blog.csdn.net/2401_84703565/article/details/142377749

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：工程师 - .NET程序反编译器
下一篇：VBA技术资料MF198：禁用下拉拖放

「QT」文件类之 QTemporaryDir 临时目录类
QTemporaryDir类是Qt框架中用于创建和管理临时目录的类。它提供了一个便捷且安全的方式来生成唯一的临时目录，这些目录通常用于存储临时文件或子目录，以便在程序运行期间进行临时存储或处理。QTe
阅读更多2024-11-16
【c++笔试强训】（第五篇）
因此，Fibonacci数列就形如：0, 1, 1, 2, 3, 5, 8, 13, ...，在Fibonacci数列中的数我们称为Fibonacci数。给你一个N，你想让其变为一个Fibonacci
阅读更多2024-11-16
vue2 动态路由的实现
一般情况下，路由都是前端约定好的，但是每当项目发布上线，或者客户需求新的页面的时候，都需要做出路由改变。这样运维就可以现场支持，方便做出可操作的中户中台，来管理我们的中心项目登录及权限，路由等方面；注
阅读更多2024-11-16
算法导论第二章
从今天开始会陆续更新关于算法导论的啃书相关文章，先从前往后而且比较常用的章节开始讲起，所以可能会有部分不怎么用的着的章节会跳过。由于第一章没讲什么具体内容，所以选择跳过从第二章开始讲起。
阅读更多2024-11-16
生成式GPT商品推荐：精准满足用户需求
随着人工智能（AI）技术的飞速发展，电商平台正在逐步迎来一场前所未有的变革。尤其是生成式GPT（Generative Pre-trained Transformer）技术的应用，正在重新定义电商平台如
阅读更多2024-11-16
【机器学习基础】西瓜书阅读笔记task01
机器学习：研究如何通过计算的手段，利用经验来改善系统自身的性能计算机系统中，经验通常以数据形式存在。机器学习研究的主要内容：计算机从数据中产生模型的算法，即“学习算法”把经验（经验数据）提供给这个算法
阅读更多2024-11-16
卷积神经网络之Yolo详解
IoU用于衡量预测框与真实框的重叠程度，是目标检测中的基础评估指标。置信度反映了模型对于其预测框包含物体的信心。精确率衡量了预测为目标的框中，实际是目标的比例。召回率衡量了模型能够找到的真实目标的比例
阅读更多2024-11-16
ssm092基于Tomcat技术的车库智能管理平台+jsp(论文+源码)_kaic
它将程序数据通过使用不同的数据表格进行保存，在增加了程序数据的存储速度的时候，也提高了数据库的灵活性。当前需要开发的程序软件是根据当下的用户需求进行设计开发的，但是随着时间的推移，社会大环境的改变，开
阅读更多2024-11-16
vue3初始项目结构与分析
时隔多年再次学习vue，单纯学习刚创立好的项目分析其结构与运作方式，掌握了基础才能在工作中延申。
阅读更多2024-11-16
理解 C++ 中的 `const` 关键字
const关键字在 C++ 中的使用是良好的编程实践。它能提高代码的安全性、可读性，并帮助优化编译器的性能。为了防止逻辑错误和性能问题，建议在可能的情况下尽量使用const。通过对比其他编程语言，可以
阅读更多2024-11-16