flink系统学习

2020-05-26 本文已影响0人 3bd3c1497272

flink自身提供的2中metric指标监控的方式

图形界面，通过flink自带的webui来查看
restful api 通过flink暴露的接口来采集
可以试着打日志
可以采集jobmanager日志与taskmanager的日志信息，分析常见的failover的原因

flink任务监控系统

依赖于外部的系统grafana or JMX 来采集指标项

基于metric运维的优点

整合数据

监控指标项的定义

延迟：最近一个成功处理的数据offset 与最新生成的一条数据的offset的差值
有的系统可以直接返回值，有的需要通过metric来做
反压：直接判断问题算子

指标的设定

JVM metrics
可以设置一些阈值类似于cpu不得超过50%，内存占用不超50%，GC比例不超15%，fullGC恒定
```
流数据 metrics
```

state metrics
当前checkpoint的进度，时长，文件大小，频率，checkpoint的失败恢复比例
DFS的设置，冗余，分片，DFS的管理，碎片文件管理，回收机制

metrics的局限性

难以保证准确性     -----需要做去噪处理

```
难以回答统计型分析
```
```
难以融合其他的metrics
```

自己遇到的线上问题

集群周期性的相应慢

```
   有跑批量统计的定时任务
```

上一篇下一篇

猜你喜欢

热点阅读