2019年2月28日
1.skywalking dashboard 13:57开始突然没有数据
显示如下
此时es状态:
观看skywalking 中collector日志:
其中出现大量的错误日志(本次服务于11点30重启后就一直存在)
观看skywalking 中agent的日志:
出现大量此类日志,继续往上查看日志
发现其中的关键在于
es 在写入的时候 已经没有资源去处理了,所以会一直显示有to many request,"es_rejected_execution_exception"这类日志
所以结合log,可以得出本质问题出现在es处理 skywalking collector 数据写入时,已经无法分配出资源来。原因主要是机器资源紧张…,所以可以从以下几个方面去优化
- 可以修改 es 写的q