btrace 定位生产故障的示例

最编程 2024-05-22 22:30:53

...

前言

很多时候我们需要知道更多的程序的运行细节，但又不可能在开发的时候就把程序中所有的运行细节都打印到日志上，通常这个时候能采取的就是修改代码，重新部署，然后再观察，但这种方法对于online应用来说不是很好，另外一方面如果碰到不好改的代码，例如引用的其他的外部的包什么的，就很麻烦了，BTrace就是一个可以在不改代码、不重启应用的情况下，动态的查看程序运行细节的工具，下面这篇文章就介绍了btrace定位生产故障的方法，需要的朋友们可以参考借鉴。

现象

某些请求通过数据访问层很慢并导致处理线程阻塞，从监控中未能检查到异常。

编写btrace脚本

@BTrace
public class DBProxyTrace {

 @OnMethod(clazz = "xxx.xxx.QueryHandler", method = "query",
  location = @Location(Kind.RETURN))
 public static void trace2(String sql, @Duration long duration) {
 if (duration/1000000 > 10 * 1000) {
  com.sun.btrace.BTraceUtils.println(duration/1000000 + "ms");
  com.sun.btrace.BTraceUtils.println("this task executes more than 10s. the sql is : "
   + sql);
  com.sun.btrace.BTraceUtils.println("jstack is : ");
  com.sun.btrace.BTraceUtils.jstack();
 }
 }
}

判断执行大于10秒的sql和堆栈信息。

编译脚本DBProxyTrace.Java，确认脚本没有问题。

./bin/btracec -cp build/ java/DBProxyTrace.java

执行脚本DBProxyTrace.class

./bin/btrace -cp build/ 17342 DBProxyTrace.class

信息

10468ms
this task executes more than 10s. the sql is : rollback
jstack is :
xxx.QueryHandler.query(QueryHandler.java:106)
xxx.net.AbstractConnection.onReadData(AbstractConnection.java:245)
xxx.net.NIOReactor$RW.run(NIOReactor.java:77)
java.lang.Thread.run(Thread.java:745)

定位

阻塞在事务回滚。

使用jstack进一步定位。

打印JVM堆栈

"$_NIOREACTOR-7-RW" prio=10 tid=0x00007f069856f000 nid=0xde1 waiting for monitor entry [0x00007f0677011000]
 java.lang.Thread.State: BLOCKED (on object monitor)
 at Oracle.jdbc.driver.PhysicalConnection.rollback(PhysicalConnection.java:1167)
 - waiting to lock <0x000000068086fbc0> (a oracle.jdbc.driver.T4CConnection)

结论

阻塞在了oracle驱动rollback动作，这里其实是因为oracle驱动为了保证串行请求响应而在底层加了锁，而这个通道被慢语句塞住了，所以rollback塞了。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

上一篇：使用 perftools 查看堆外内存并解决 hbase 内存溢出问题

下一篇：基于 Btrace 的监控和调试

btrace 定位生产故障的示例

定位IBM P系列小型机故障的基础方法

K8S 的 JVM 应用程序无法解释 Kill 生产事故故障排除（基于本地内存跟踪故障排除分析）

实现高德地图定位和显示的两个简单步骤，包括坐标系转换（Angular 框架 + TypeScript 代码示例）

vivo 故障定位平台的探索与实践

btrace 定位生产故障的示例

故障排除 | 如何修复生产环境中的 MySQL 数据页面损坏问题？

百度的通信库、BCCL 和 Wanka 集群集合针对大型模型训练进行了优化，可快速定位故障。