Open Falcon 使用教程
2018-08-30 本文已影响4人
沈宥
OpenFalcon是一款企业级、高可用、可扩展的开源监控解决方案,提供实时报警、数据监控等功能。可以非常容易的监控整个服务器的状态,比如磁盘空间,端口存活,网络流量等等。
1、数据参数
metric: 最核心的字段,监控指标名称,代表这个采集项具体度量的是什么, 比如是cpu_idle呢,还是memory_free, 还是qps
endpoint: 标明Metric的主体(属主),比如metric是cpu_idle,那么Endpoint就表示这是哪台机器的cpu_idle,一般使用机器的 hostname
timestamp: 表示上报该数据时的unix时间戳,注意是整数,代表的是秒
value: 代表该metric在当前时间点的值,float64
step: 表示该数据采集项的上报周期,这对于后续的配置监控策略很重要,必须明确指定。
counterType: 是Open Falcon定义的数据类型,取值只能是COUNTER或者GAUGE二选一,前者表示该数据采集项为计时器类型,后者表示其为原值 (注意大小写)
- GAUGE:即用户上传什么样的值,就原封不动的存储
- COUNTER:指标在存储和展现的时候,会被计算为speed,即(当前值 - 上次值)/ 时间间隔
tags: 监控数据的属性标签,一组逗号分割的键值对, 对metric进一步描述和细化, 可以是空字符串. 比如idc=lg,比如service=xbox等,多个tag之间用逗号分割
2、报警参数
all(#3): 最新的3个点都满足阈值条件则报警
max(#3): 对于最新的3个点,其最大值满足阈值条件则报警
min(#3): 对于最新的3个点,其最小值满足阈值条件则报警
sum(#3): 对于最新的3个点,其和满足阈值条件则报警
avg(#3): 对于最新的3个点,其平均值满足阈值条件则报警
diff(#3): 拿最新push上来的点(被减数),与历史最新的3个点(3个减数)相减,得到3个差,只要有一个差满足阈值条件则报警
pdiff(#3): 拿最新push上来的点,与历史最新的3个点相减,得到3个差,再将3个差值分别除以减数,得到3个商值,只要有一个商值满足阈值则报警
lookup(#2,3): 最新的3个点中有2个满足条件则报警
3、针对具体服务进行监控
(1)添加要监控的host
Screen Shot 2018-08-30 at 3.11.10 PM.png
(2)通过刚才已经设置的endpoint名搜索已经添加的host下具体的metric
Screen Shot 2018-08-30 at 3.12.26 PM.png
(3)绑定templates
Screen Shot 2018-08-30 at 3.24.04 PM.png
(4)策略编辑
Screen Shot 2018-08-30 at 3.30.55 PM.png
(5)查看具体某一个endpoint的screen
Screen Shot 2018-08-30 at 3.21.56 PM.png