flume 基本概念与操作实例（常用 source），kalilinux 视频教程

2021 年 11 月 09 日
本文字数：1091 字
阅读完需：约 4 分钟

Source：采集源，用于跟数据源对接，以获取数据；

Channel：agent 内部的数据传输通道，用于从 source 将数据传递到 sink；

Sink：下沉地，采集数据的传送目的，用于往下一级 agent 传递数据或者往最终存储系统传递数据；

在整个数据的传输的过程中，流动的是 event，它是 Flume 内部数据传输的最基本单元。

event 将传输的数据进行封装。如果是文本文件，通常是一行记录，event 也是事务的基本单位。event 从 source，流向 channel，再到 sink，本身为一个字节数组，并可携带 headers(头信息)信息。event 代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。

![在这里插入图片描述](https://img-blog.cs

《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》
浏览器打开：qq.cn.hn/FTe 免费领取

复制代码

dnimg.cn/8902fbcd88af4c88bca90a2a7ce6686f.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ0ODIzNzU2,size_16,color_FFFFFF,t_70)

二、流动方式

扇入流动

多个 source 对应一个 sink

扇出流动

一个 source 对应多个 sink

三、flume 中几种常用的 source

（1）netcat

数据的形式是通过 TCP 请求接受或者发送,接受的只是字符串形式的数据

文件编写

在 flume 文件下的 data 目录中新建一个 basic 文件

vim basic.conf

#绑定数据来源为 r1

a1.sources=r1

#绑定 source 与 sink 之间的通道 channel

a1.channels=c1

#绑定数据流向的最终目的地

a1.sinks=s1

#配置 Source

#这里的 source 是 netcat，通过 NC 发出 TCP 请求获取数据

a1.sources.r1.type=netcat

#端口所在的地址，表示从本地获取数据

a1.sources.r1.bind=0.0.0.0

#绑定端口号，配置监听的端口

a1.sources.r1.port=8090

#配置 Channel -表示内存通道，临时把数据存储到内存中

a1.channels.c1.type=memory

#最多存储 1000 条数据 - 对应 1000 个 event 事件

a1.channels.c1.capacity=1000

#每次提供 100 条数据发送给 sink

a1.channels.c1.transactionCapacity=100

#配置 sink -表示以日志的形式输出在控制台

a1.sinks.s1.type=logger

实战操作

在 linux 系统中下载安装 flume，进入 flume 安装路径的 bin 目录中

接着开启 flume

sh flume-ng agent --name a1 -c …/conf/ -f …/data/basic.conf -Dflume.root.logger=INFO,console

接着在同一台虚拟机内，打开一个新的终端

解压安装 nc

在新终端输入 nc hadoop01 8090

hadoop01 是本台虚拟机的名称，8090 是之前设定的端口

在里面随意的输入几个单词

这时再回到原先的终端窗口

会发现 flume 已经监听到输入的这两个单词了

（2）avro

数据的形式是通过 TCP 请求接受或者发送,接受的只是字符串形式的数据

文件编写

相比于 netcat，只需要修改 a1.sources.r1.type=avro 即可

发布于: 2021 年 11 月 09 日阅读数: 4

Java高工P7

关注

还未添加个人签名 2021.11.08 加入

还未添加个人简介

发布

暂无评论

创作场景

flume 基本概念与操作实例（常用 source），kalilinux 视频教程

（1）netcat

文件编写

实战操作

文件编写

Java高工P7

评论