写点什么

大数据培训如何部署一个健壮的 Airflow

作者:小谷哥
  • 2022 年 8 月 02 日
  • 本文字数:1687 字

    阅读完需:约 6 分钟

Airflow 是一个以编程方式编写,安排和监视工作流的平台。

使用 Airflow 将工作流编写任务的有向无环图(DAG)。Aiflow 计划程序在遵循指定的依赖项同时在一组工作线程上执行任务。丰富的命令实用程序使在 DAG 上执行复杂的调度变得轻而易举。丰富的用户界面使查看生产中正在运行的管道,监视进度以及需要时对问题进行故障排除变得容易。

具有以下特点

Dynamic:Airflow 配置需要使用 Python,允许动态生产管道。这允许编写可动态。这允许编写可动态实例化管道的代码;

Extensible:轻松定义自己的运算符,执行程序并扩展库,使其适合于您的的环境;

Elegant:Airlfow 是精简的,使用功能强大的 Jinja 模板引擎,将脚本参数化内置于 Airflow 的核心中;

Scalable:Airflow 具有模板块架构,并使用消息队列来安排任意数量的工作任务。

1、安装环境准备

环境准备:

阿里云服务器,centos7.5 系统,Python2.7.5,Pip 20.3.1,openssl1.02(重要)



如上所示,hadoop101,hadoop102,hadoop103 为 hadoop 集群,airflow 节点部署 airlfow。

python、pip、openssl 版本如下:





2、升级 PIP

若 PIP 版本不满足 20.3.1,以如下方式升级:

[root@airflow~]# pip install --upgrade pip

[root@airflow~]# pip -V

pip20.3.1 from /usr/lib/python2.7/site-packages/pip (python 2.7)

[root@airflow~]# pip install --upgrade setuptools

3、安装 Miniconda

conda 是一个开源的包、环境管理器,可以用于在同一个机器上安装不同 Python 版本的软件包及其依赖,并能够在不同的 Python 环境之间切换,Anaconda 包括 Conda、Python 以及一大堆安装好的工具包,比如:numpy、pandas 等,Miniconda 包括 Conda、Python。

此外,我们不需要如此多的工具包,故选择 MiniConda。

1)下载 Miniconda(Python3 版本)

下载地址:

https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

[root@airflow~]# mkdir /opt/software

[root@airflow~]# cd /opt/software/

[root@airflowsoftware]# wgethttps://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

2)安装 Miniconda

[root@airflowsoftware]# bash Miniconda3-latest-Linux-x86_64.sh

(1)在安装过程中,出现以下提示时,可以指定安装路径



(2)出现以下字样,即为安装完成



3)加载环境变量配置文件,使之生效

[root@airflowsoftware]# source ~/.bashrc

Miniconda 安装完成后,每次打开终端都会激活其默认的 base 环境,我们可通过以下命令,禁止激活默认 base 环境。

[root@airflowsoftware]# conda config --set auto_activate_base false

3、安装 Python3.7.4

1)配置 conda 国内镜像

[root@airflow~]# conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free

[root@airflow~]# conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main

[root@airflow~]# conda config --set show_channel_urls yes

[root@airflow~]# conda create --name python3 python=3.7.4

说明:conda 环境管理常用命令

创建环境:conda create -n env_name

查看所有环境:conda info –envs

删除一个环境:conda remove -n env_name –all

2)激活 python3 环境

[root@airflow~]# conda activate python3

(python3)[root@airflow ~]# python -V

Python3.7.4

3)退出 python3 环境

(python3)[root@airflow ~]# conda deactivate

[root@airflow~]# python -V

Python2.7.5

4、安装 Airflow

(1)安装 airflow,先切换到 python3 环境

[root@airflow~]# conda activate python3

(python3)[root@airflow ~]# cd /opt/software/

(python3)[root@airflow software]# pip install "apache-airflow==1.10.14"

(2)初始化 airflow

(python3)[root@airflow software]# airflow db init

(3)查看版本

(python3)[root@airflow software]# airflow version

1.10.14

(4)airflow 安装好存放路径

(python3)[root@airflow airflow]# pwd

/root/airflow

(5)启动 airflow web 服务,启动后浏览器访问 http://airflow:8080

(python3)[root@airflow airflow]# airflow webserver -p 8080 -D



(2)启动 airflow 调度

(python3)[root@airflow airflow]# airflow scheduler -D

以上,安装完成。

用户头像

小谷哥

关注

定期分享编程相关技术知识 2022.02.16 加入

【视频及配套资料下载】:www.atguigu.com 【在线学习交流】:关注尚硅谷B站官方账号

评论

发布
暂无评论
大数据培训如何部署一个健壮的Airflow_小谷哥_InfoQ写作社区