写点什么

基于 ubuntu 系统部署 FateLLM1.3.0

  • 2025-07-10
    北京
  • 本文字数:1428 字

    阅读完需:约 5 分钟

本文分享自天翼云开发者社区《基于ubuntu系统部署FateLLM1.3.0》,作者:刘****阳

一、基础环境


本次测试是基于 K8S 集群管理的两个 POD 节点进行部署,软硬件信息如下:


   服务器规格:  CPU:8c80G    GPU:V100/40G * 2
系统环境: ubuntu18.04-cuda11.7-deepspeed0.9.5
复制代码


二、基础配置


1、安装基础依赖

apt-get updateapt-get install -y language-pack-en net-tools supervisor cron iputils-ping ansible openssh-server sudo vim straceservice ssh startservice ssh status
复制代码


2、配置用户及权限

groupadd  appsuseradd -s /bin/bash -g apps -d /home/app apppasswd app# 输入app用户密码# -----------------------------------------------# 配置app用户sudo权限vi /etc/sudoers.d/app# 添加内容app ALL=(ALL) ALLapp ALL=(ALL) NOPASSWD: ALLDefaults !env_reset# 给文件sudoers文件增加写入权限chmod u+w /etc/sudoersvim /etc/sudoers# 在root ALL=(ALL) ALL下面追加:root ALL=(ALL) NOPASSWD: ALLapp ALL=(ALL) ALLapp ALL=(ALL) NOPASSWD: ALL# 删除写入权限chmod u-w /etc/sudoers# ------------------------------------------------# 配置自身免密登录su appssh-keygen -t rsa
cat /home/app/.ssh/id_rsa.pub >>/home/app/.ssh/authorized_keyschmod 600 /home/app/.ssh/authorized_keys
复制代码

3、创建文件目录并赋予权限

mkdir -pv /data/projects /data/temp /data/logs /data/soft /home/appchown -R app:apps /data/* /home/app
复制代码

4、下载软件包

# 使用Ansible方式进行部署su appcd /data/soft/wget ****************************/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline.tar.gz# 解压文件cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline#安装fate所需的基础环境bash tools/install_base.sh
复制代码

可以将基础步骤打包成镜像,分发到其余节点。

三、FateLLM 框架安装

1、初始化

cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline# 在host节点初始化hostbash deploy/deploy.sh init -h="10000:XXX.XXX.XXX.XXX"# 在guest节点初始化guestbash deploy/deploy.sh init -g="9999:XXX.XXX.XXX.XXX"# 初始化后会在deploy/conf文件夹下生成conf文件,可配置安装的组件
复制代码

2、生成 ansible 配置文件

cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline# 在host节点初始化hostbash deploy/deploy.sh render# 会生成var_files/prod文件夹# 各组件的用户密码可在此进行修改
复制代码

3、进行部署操作

cd /data/soft/AnsibleFATE_1.11.3_LLM_1.3.0_release_offline# 在host节点和guest节点分别进行部署bash deploy/deploy.sh deploy# 安装部署日志提示无报错后,安装成功
复制代码

4、进行基础测试

# 单边测试# host节点执行source /data/projects/fate/bin/init_env.shflow test toy -gid 10000 -hid 10000# guest节点执行source /data/projects/fate/bin/init_env.shflow test toy -gid 9999 -hid 9999# 执行成功后会返回正确结果
(2)配置route_table# 在host节点添加guest路由信息vim /data/projects/fate/eggroll/conf/route_table.json在路由信息中添加"9999": { "default":[ { "port": XXXX, "ip": "XXX,XXX,XXX,XXX" } ] }# 同理在guest节点添加host信息(3)进行双边基础测试flow test toy -gid 9999 -hid 10000# 注意在哪个节点执行哪个节点为guest
复制代码


用户头像

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

评论

发布
暂无评论
基于ubuntu系统部署FateLLM1.3.0_云计算_天翼云开发者社区_InfoQ写作社区