flink学习之一---准备工作

2019-03-10 本文已影响54人 AlanKim

flink的运行其实不需要这些，但是如果需要模拟一些业务场景，就需要依赖zk、kafka等中间件，下面记录一些安装、配置的简要内容。
由于公司机器是win10，这边的操作都是基于win环境的，linux下可能稍有改动。

安装zk：

下载地址：https://zookeeper.apache.org/releases.html

下载后，解压放在目录D:\bigdata（本文所用的目录）下，关于zookeeper以及kafka的目录，路径中最好不要出现空格，比如D:\Program Files，尽量别用，运行脚本时会有问题。

①进入zookeeper的相关设置所在的文件目录，例如本文的：D:\bigdata\zookeeper-3.4.10\conf

②将"zoo_sample.cfg"重命名为"zoo.cfg"

③打开zoo.cfg(至于使用什么编辑器，根据自己喜好选即可)，找到并编辑：

dataDir=/tmp/zookeeper to D:/bigdata/zookeeper-3.4.10/data 或 D:\bigdata\zookeeper-3.4.10\data(路径仅为示例，具体可根据需要配置)

这里注意，路径要么是"/"分割，要么是转义字符"\"，这样会生成正确的路径(层级，子目录)。

④与配置jre类似，在系统环境变量中添加：

a.系统变量中添加ZOOKEEPER_HOME=D:\bigdata\zookeeper-3.4.10

b.编辑系统变量中的path变量，增加%ZOOKEEPER_HOME%\bin

⑤在zoo.cfg文件中修改默认的Zookeeper端口(默认端口2181)

⑥打开cmd窗口，输入zkserver（zkServer.cmd），运行Zookeeper

Kafka

安装kafka：

下载地址：http://kafka.apache.org/downloads

要下载Binary downloads这个类型，不要下载源文件，这种方便使用。下载后，解压放在D:\bigdata目录下。

①进入kafka配置文件所在目录，D:\bigdata\kafka_2.11-0.9.0.1\config

②编辑文件"server.properties"，找到并编辑：

log.dirs=/tmp/kafka-logs to log.dirs=D:/bigdata/kafka_2.11-0.9.0.1/kafka-logs 或者 D:\bigdata\kafka_2.11-0.9.0.1\kafka-logs

同样注意：路径要么是"/"分割，要么是转义字符"\"，这样会生成正确的路径(层级，子目录)。错误路径情况可自行尝试，文件夹名为这种形式：bigdatakafka_2.11-0.9.0.1kafka-logs

③在server.properties文件中，zookeeper.connect=localhost:2181代表kafka所连接的zookeeper所在的服务器IP以及端口，可根据需要更改。本文在同一台机器上使用，故不用修改。

④kafka会按照默认配置，在9092端口上运行，并连接zookeeper的默认端口2181。

运行kafka

提示：请确保启动kafka服务器前，Zookeeper实例已经在运行，因为kafka的运行是需要zookeeper这种分布式应用程序协调服务。

①进入kafka安装目录D:\bigdata\kafka_2.11-0.9.0.1

②按下shift+鼠标右键，选择"在此处打开命令窗口"，打开命令行。

③在命令行中输入：.\bin\windows\kafka-server-start.bat .\config\server.properties 回车。

④不报异常的话，说明正确运行

创建topic

①创建主题，命名为"test0811"，replicationfactor=1(因为只有一个kafka服务器在运行)。可根据集群中kafka服务器个数来修改replicationfactor的数量，以便提高系统容错性等。

②在D:\bigdata\kafka_2.11-0.9.0.1\bin\windows目录下打开新的命令行

③输入命令：

kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test0811

–topic指定topic name
–partitions指定分区数，这个参数需要根据broker数和数据量决定，正常情况下，每个broker上两个partition最好；

–replication-factor指定partition的replicas数，建议设置为2

查看已有的topic

kafka-topics.bat --list --zookeeper localhost:2181

创建生产者(producer)和消费者(consumer)

①在D:\bigdata\kafka_2.11-0.9.0.1\bin\windows目录下打开新的命令行。

②输入命令，启动producer：

kafka-console-producer.bat --broker-list localhost:9092 --topic test0811

该窗口不要关闭。

③同样在该目录下打开新的命令行。

④输入命令，启动consumer：

kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic testjin

现在生产者、消费者均已创建完成。

⑤在producer命令行窗口中任意输入内容，回车在consumer命令行窗口中即可看到相应的内容。

查看topic详细信息

kafka-topics.bat --zookeeper localhost:2181 --describe

kafka-topics.bat --zookeeper localhost:2181 --topic testjin --describe

上图可见，如果指定了--topic就是只显示给定topic的信息，否则显示所有topic的详细信息。
如果指定了under-replicated-partitions，那么就显示那些副本数量不足的分区(ISR size < AR.size)
如果指定了unavailable-partitions，那么就显示那些leader副本已不可用的分区
从zookeeper上获取当前所有可用的broker
遍历每个要describe的topic，
获取这个topic的分区副本分配信息，若该信息不存在说明topic不存在
否则将分配信息按照分区号进行排序
如果没有指定步骤2中的参数也没有指定步骤3中的参数，那么显示分区数信息、副本系数信息以及配置信息
默认情况下还会显示各个分区的信息
从zookeeper中获取每个分区的ISR、Leader、AR信息并显示

启动脚本

写了个简单的启动脚本，按照先后顺序启动zk、kafka及flink，这里的脚本是在linux下执行的，如果需要在win下执行，就需要写对应的bat文件（原谅我，环境变了，一会儿win一会儿linux，我也很崩溃啊）。
如下：

#!/bin/bash
echo "starting zk server..."
zookeeper-3.5.4-beta/bin/zkServer.sh start 
echo "waiting for zk start for 1.5 seconds"
sleep 1.5

echo "starting kafka server..."
kafka_2.12-2.1.0/bin/kafka-server-start.sh kafka_2.12-2.1.0/config/server.properties &
echo "waiting for kafka start for 1.5 seconds"
sleep 1.5

echo "starting flink server..."
flink-1.7.1/bin/start-cluster.sh
echo "OK"

这里比较麻烦的是kafka，因为会一直打印日志，不过不影响，本地用来玩，足够了。