TDengine+Telegraf+Grafana搭建监控系统

2019-08-13 本文已影响107人 yiming1012

文章作者：易明
个人博客：https://yiming1012.github.io
简书主页：https://www.jianshu.com/u/6ebea55f5cec
邮箱地址：1129079384@qq.com

简介：

TDengine是一个高效的存储、查询、分析时序大数据的平台，专为物联网、车联网、工业互联网、运维监测等优化而设计。而作为服务于一家车联网公司且有着钻研精神的大数据工程师，自然会摸索一番。
在安装好TDengine后，根据官方给出的TDengine+Telegraf+Grafana组合，搭建监控平台。

Telegraf--数据采集
TDengine--数据存储
Grafana--数据展示

利用官方博客给出的c程序向TDengine插入数据，并通过监控平台观测CPU、内存和磁盘利用率如下图：

Linux环境：

1. 系统：Centos7.2
2. 内存：8G
3. 磁盘：1T
4. CPU：Intel(R) Pentium(R) CPU G3250 @ 3.20GHz
5. 核数：2核

TDengine部署：

1、从官网https://www.taosdata.com/cn/getting-started/下载RPM包（tdengine-1.6.0.0-3.el7.x86_64.rpm）
2、安装：rpm -ivh tdengine-1.6.0.0-3.el7.x86_64.rpm
3、启动taos：systemctl start taosd
4、输入taos，进入数据库

Telegraf部署：

Telegraf 是收集和报告指标和数据的代理。Telegraf是TICK Stack的一部分，是一个插件驱动的服务器代理，用于收集和报告指标。

1、进入官网https://portal.influxdata.com/downloads/下载

2、选择对应版本安装

wget https://dl.influxdata.com/telegraf/releases/telegraf-1.11.3-1.x86_64.rpm
sudo yum localinstall telegraf-1.11.3-1.x86_64.rpm

3、配置Telegraf，进入/etc/telegraf/telegraf.conf

在[agent]部分修改配置项：

hostname: 区分不同采集设备的机器名称，需确保其唯一性metric_batch_size: 30，允许Telegraf每批次写入记录最大数量，增大其数量可以降低Telegraf的请求发送频率，但对于TDengine，该数值不能超过50

在[[outputs.http]]修改配置项：

url：http://ip:6020/telegraf/udb，其中ip为TDengine集群的中任意一台服务器的IP地址，6020为TDengine RESTful接口的端口号，telegraf为固定关键字，udb为用于存储采集数据的数据库名称，可预先创建（一般默认生成）
method: "POST" 
username: 登录TDengine的用户名，默认为root
password: 登录TDengine的密码，默认为taosdata
data_format: "json"
json_timestamp_units: "1ms" `注意这一行不能直接复制粘贴，里面“:”要改成“=”`

4、启动Telegraf

systemctl start telegraf

5、进入taos数据库，查看生成的库和表

show databases; --显示数据库
use udb;--使用数据库
show stables;--显示超级表
show tables;--显示普通表

Grafana部署：

Grafana是一个跨平台的开源的度量分析和可视化工具，可以通过将采集的数据查询然后可视化的展示，并及时通知。

1、进入官网https://grafana.com/grafana/download下载并安装：

wget https://dl.grafana.com/oss/release/grafana-6.2.5-1.x86_64.rpm
sudo yum localinstall grafana-6.2.5-1.x86_64.rpm

2、TDengine的Grafana插件在安装包的/usr/local/taos/connector/grafana目录下。

以CentOS 7.2系统为例，将tdengine目录拷贝到/var/lib/grafana/plugins目录下

scp -r /usr/local/taos/connector/grafana/tdengine/ /var/lib/grafana/plugins

3、启动Grafana

systemctl start grafana-server

4、在浏览器中通过host:3000登录Grafana服务器（用户名/密码：admin/admin）

5、添加数据源为TDengine

用户名/密码为连接TDengine的root/taosdata，而不是Grafana的admin/admin。

6、创建dashboard实现数据可视化

以上分为7个步骤，分别用1-7标明：

1、点击Queries图标
2、选择Query中的TDengine
3、在INPUT SQL中填入需要显示的指标，以上为CPU利用率:
select avg(f_usage_user) from udb.cpu WHERE ts>=$from and ts<$to interval($interval)
4、为Panel形取一个别名：CPU
5、点击GENERATE SQL，生成图形
6、选择需要展示的时间段，如Last 5 minutes
7、选择图形刷新的频率，如5s

7、配置Visualization参数

8、设置General参数

点击General，为Panel修改名称为：CPU利用率

9、配置Settings

10、保存后得到下图

11、进入Grafana官网https://grafana.com/grafana/plugins?type=panel还可以安装一些插件，如时钟等

grafana-cli plugins install grafana-clock-panel
systemctl restart grafana-server

重启Grafana后，刷新dashboard便会出现Clock

12、其他监控指标如下：

磁盘利用率

select avg(f_used_percent) from udb.disk WHERE ts>=$from and ts<$to interval($interval);

总内存

select avg(f_total) from udb.mem WHERE ts>=$from and ts<$to interval($interval);

内存利用率

select avg(f_used_percent) from udb.mem WHERE ts>=$from and ts<$to interval($interval);

可用内存

select avg(f_available) from udb.mem WHERE ts>=$from and ts<$to interval($interval);

总结：

基于TDengine+Telegraf+Grafana的简易监控平台搭建完成，感兴趣的朋友可以监控更多指标并加上报警功能等。TDengine自开源以来便引起了巨大反响，使用过一段时间后，不得不说，TDengine的诞生确实为物联网数据的存储分析带来了便利，我有以下几个心得：

1、从部署来讲，即使搭建过很多次Hadoop架构，我还是得仔细配置调参测试，至少得折腾一两天，TDengine单机版部署确实是秒级，集群版部署流程不太清楚。

2、从存储来讲，我用的是snappy算法，官方给出的压缩率是remaining 20%，在测试的时候感觉并没有这么多，我们磁盘总共60T，3月开始到现在用了差不多10T了。TDengine的压缩率是10%。

3、从数据分析来讲，我们读取Hbase数据，快的方法是Spark，我们的行健是车辆ID和时间戳的组合，相邻时间的数据可能分散在各个region上，在不同的机器上，通过RPC连接，查询时也比较慢。而TDengine设计时一辆车对应一张表，连续的数据在一个block上，查询非常快，我用python连接单机版taos数据库，读取和分析整个超级表也是秒级的，集群版没有测试过。

4、从运维上来讲，我安装的每个组件是分开部署，不像Ambari那种集成了所有组件的，集群出问题了就要一点点排查，不过好在Hadoop架构相对比较成熟了，网上应该总能找到解决办法。而TDengine就是把所有东西都封装在一个小小的包里面，运维应该会相对轻松。

以上言论均为一家之言，最后，希望能尽快感受到集群版的魅力，也祝愿TDengine蓬勃发展。