大数据培训如何部署一个健壮的 Airflow
Airflow 是一个以编程方式编写,安排和监视工作流的平台。
使用 Airflow 将工作流编写任务的有向无环图(DAG)。Aiflow 计划程序在遵循指定的依赖项同时在一组工作线程上执行任务。丰富的命令实用程序使在 DAG 上执行复杂的调度变得轻而易举。丰富的用户界面使查看生产中正在运行的管道,监视进度以及需要时对问题进行故障排除变得容易。
具有以下特点
Dynamic:Airflow 配置需要使用 Python,允许动态生产管道。这允许编写可动态。这允许编写可动态实例化管道的代码;
Extensible:轻松定义自己的运算符,执行程序并扩展库,使其适合于您的的环境;
Elegant:Airlfow 是精简的,使用功能强大的 Jinja 模板引擎,将脚本参数化内置于 Airflow 的核心中;
Scalable:Airflow 具有模板块架构,并使用消息队列来安排任意数量的工作任务。
1、安装环境准备
环境准备:
阿里云服务器,centos7.5 系统,Python2.7.5,Pip 20.3.1,openssl1.02(重要)
如上所示,hadoop101,hadoop102,hadoop103 为 hadoop 集群,airflow 节点部署 airlfow。
python、pip、openssl 版本如下:
2、升级 PIP
若 PIP 版本不满足 20.3.1,以如下方式升级:
[root@airflow~]# pip install --upgrade pip
[root@airflow~]# pip -V
pip20.3.1 from /usr/lib/python2.7/site-packages/pip (python 2.7)
[root@airflow~]# pip install --upgrade setuptools
3、安装 Miniconda
conda 是一个开源的包、环境管理器,可以用于在同一个机器上安装不同 Python 版本的软件包及其依赖,并能够在不同的 Python 环境之间切换,Anaconda 包括 Conda、Python 以及一大堆安装好的工具包,比如:numpy、pandas 等,Miniconda 包括 Conda、Python。
此外,我们不需要如此多的工具包,故选择 MiniConda。
1)下载 Miniconda(Python3 版本)
下载地址:
https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
[root@airflow~]# mkdir /opt/software
[root@airflow~]# cd /opt/software/
[root@airflowsoftware]# wgethttps://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
2)安装 Miniconda
[root@airflowsoftware]# bash Miniconda3-latest-Linux-x86_64.sh
(1)在安装过程中,出现以下提示时,可以指定安装路径
(2)出现以下字样,即为安装完成
3)加载环境变量配置文件,使之生效
[root@airflowsoftware]# source ~/.bashrc
Miniconda 安装完成后,每次打开终端都会激活其默认的 base 环境,我们可通过以下命令,禁止激活默认 base 环境。
[root@airflowsoftware]# conda config --set auto_activate_base false
3、安装 Python3.7.4
1)配置 conda 国内镜像
[root@airflow~]# conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
[root@airflow~]# conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
[root@airflow~]# conda config --set show_channel_urls yes
[root@airflow~]# conda create --name python3 python=3.7.4
说明:conda 环境管理常用命令
创建环境:conda create -n env_name
查看所有环境:conda info –envs
删除一个环境:conda remove -n env_name –all
2)激活 python3 环境
[root@airflow~]# conda activate python3
(python3)[root@airflow ~]# python -V
Python3.7.4
3)退出 python3 环境
(python3)[root@airflow ~]# conda deactivate
[root@airflow~]# python -V
Python2.7.5
4、安装 Airflow
(1)安装 airflow,先切换到 python3 环境
[root@airflow~]# conda activate python3
(python3)[root@airflow ~]# cd /opt/software/
(python3)[root@airflow software]# pip install "apache-airflow==1.10.14"
(2)初始化 airflow
(python3)[root@airflow software]# airflow db init
(3)查看版本
(python3)[root@airflow software]# airflow version
1.10.14
(4)airflow 安装好存放路径
(python3)[root@airflow airflow]# pwd
/root/airflow
(5)启动 airflow web 服务,启动后浏览器访问 http://airflow:8080
(python3)[root@airflow airflow]# airflow webserver -p 8080 -D
(2)启动 airflow 调度
(python3)[root@airflow airflow]# airflow scheduler -D
以上,安装完成。
评论