# 服务异常重启分析及定位

在一个平平无奇的一天，收到通知，你们的后端服务总是重启，具体是什么原因呢？

我。。。怎么知道。。。

# 异常退出有哪些原因？

我们可以看到这些指标

通过上图的一些趋势，我们可以大致知道，应该是内存泄漏，因为我们可以看到每次容器重启数据变化的时刻都对应这内存使用率达到百分之百后。

该问题出现在产线环境，在产线环境上，有着诸多的不便，比如：

针对这些问题可以用以下一些方式：

在我们的应用中我们直接开启监控工具，并部署到环境中，参考gin开启pprof

访问我们部署了监控工具的路由https://www.xxx.com/debug/pprof/，我们可以得到如下视图：

我们可以发现，协程的数量特别多，随着时间的加长，一直在上升，可以怀疑，有可能是协程泄漏，导致的问题。

点击后面的链接，可以看到涉及协程阻塞的位置，数量还有堆栈信息，如下：

我们可以看到阻塞在了redis包下的reaper这个方法中，具体我们的代码位置，我们可以到包中搜索，也可以使用命令行查看。由于命令行查看的一些环境配置并不统一，以下不做展示，直接到我们的包中查看，我们搜索的时候需要指定对应的包。

我们可以找到启动协程位置如下：

代码阻塞的位置如下：

我们可以大概猜到，问题应该出现连接池中定时检测的代码上，此时已经定位到了代码位置。对于如何解决，需要继续的进行定位，查看为何回启动这么多的协程不释放呢？

需要确定是

对于这个问题我们可以直接使用web页面查看下，协程监控的图。

执行命令go tool pprof -http=localhost:8080 https://www.xxx.com/debug/pprof/goroutine可以看到协程的调用信息，数量和占比
访问本地localhost:8080，可以看到如下界面：
还可以配合堆的监控视图，查看堆栈有没有相关函数的调用信息，从而确认问题代码的入口。执行启动web相关堆栈的视图命令：go tool pprof -http=localhost:8080 https://www.xxx.com/debug/pprof/heap
访问本地localhost:8080，可以看到如下界面：