Flume 简介和架构安装配置详解

2022 年 1 月 20 日
本文字数：1928 字
阅读完需：约 6 分钟

flume 简介

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。

Flume 的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume 在删除自己缓存的数据。

Flume 支持定制各类数据发送方，用于收集各类型数据；同时，Flume 支持定制各种数据接受方，用于最终存储数据。一般的采集需求，通过对 flume 的简单配置即可实现。针对特殊场景也具备良好的自定义扩展能力。因此，flume 可以适用于大部分的日常数据采集场景

# 运行机制

单个 agent 采集数据

Agent 是 Flume 的一个 JVM 进程，其中包含 Source、Channel、Sink 三个组件，要采集的数据经过定制化的 Source 缓存到 Channel，Channel 是一个队列，Source 向里面插入数据，Sink 从里面取数据，当 Sink 确认数据被下一跳 Agent 或者 DB 等接收后会将数据从 Channel 删除。

source 采集源，可以接收外部源发送过来的数据。不同的 source，可以接受不同的数据格式。比如有目录池(spooling directory)数据源，可以监控指定文件夹中的新文件变化，如果目录中有文件产生，就会立刻读取其内容。

channel 是一个存储地，接收 source 的输出，直到有 sink 消费掉 channel 中的数据。channel 中的数据直到进入到下一个 channel 中或者进入终端才会被删除。当 sink 写入失败后，可以自动重启，不会造成数据丢失，因此很可靠。

sink 会消费 channel 中的数据，然后送给外部源或者其他 source。如数据可以写入到 HDFS 或者 HBase 中。

flume 允许多个 agent 连在一起，形成前后相连的多级跳。

多个 agent 之间串联：

Flume 系统中核心的角色是 agent，agent 本身是一个 Java 进程，一般运行在日志收集节点。

每一个 agent 相当于一个数据传递员，内部有三个组件：

Source：采集源，用于跟数据源对接，以获取数据；

Sink：下沉地，采集数据的传送目的，用于往下一级 agent 传递数据或者往最终存储系统传递数据；

Channel：agent 内部的数据传输通道，用于从 source 将数据传递到 sink；

在整个数据的传输的过程中，流动的是 event，它是 Flume 内部数据传输的最基本单元。event 将传输的数据进行封装。如果是文本文件，通常是一行记录，event 也是事务的基本单位。event 从 source，流向 channel，再到 sink，本身为一个字节数组，并可携带 headers(头信息)信息。event 代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。

一个完整的 event 包括：event headers、event body、event 信息，其 event 信息就是 flume 收集到的日记记录。

二、安装配置使用 flume

系统环境：centos7.5 64 位系统

1.下载安装包

官网下载离线安装包：apache-flume-1.8.0-bin.tar.gz

也可以使用 linux 命令下载：

wget -c http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz

复制代码

2.解压

解压压缩包并放至指定目录，我这里的完整目录是：/home/hadoop/runtime/apache-flume-1.8.0-bin/

3.配置环境变量

vi /etc/profile 打开 profile 文件，追加如下文本

#FLUME WARIABLES STARTexport FLUME_HOME=/home/hadoop/runtime/apache-flume-1.8.0-binexport PATH=$PATH:$FLUME_HOME/bin#FLUME WARIABLES END

复制代码

source /etc/profile

4.输入如下命令查看版本

flume-ng version

如果看到如下输出信息表示安装成功：

简单示例 cd /usr/local/flume/

tar -xzvf apache-flume-1.6.0-bin.tar.gz cd  /usr/local/flume/apache-flume-1.6.0-bin/confcp  flume-env.sh.template flume-env.shvim flume-env.shexport JAVA_HOME=${JAVA_HOME}

复制代码

先在flume的conf目录下新建一个文件,指定flume我们所描述的采集方案 vim netcat-logger.conf
#定义agent中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1
#描述和配置source组件：r1a1.sources.r1.type = netcata1.sources.r1.bind = localhosta1.sources.r1.port = 44444
#描述和配置sink组件：k1a1.sinks.k1.type = logger
#描述和配置channel组件，此处使用是内存缓存的方式a1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.channels.c1.transactionCapacity = 100
#描述和配置source channel sink之间的连接关系a1.sources.r1.channels = c1a1.sinks.k1.channel = c1

复制代码

#启动agent去采集数据cd /usr/local/flume/apache-flume-1.6.0-binbin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console

复制代码

启动成功

测试，先要往agent采集监听的端口上发送数据，让agent有数据可采集。telnet localhost 44444

复制代码

另外一个窗口就会采集过来输入 flume 数据：

关键词：大数据培训

发布于: 刚刚阅读数: 4

编程江湖

关注

IT技术分享 2021.11.23 加入

还未添加个人简介

发布

暂无评论

创作场景

Flume 简介和架构安装配置详解

编程江湖

评论