文心大模型,产业级知识增强大模型介绍
官网:https://wenxin.baidu.com/
项目链接见文末
文心大模型开发套件 ERNIEKit,面向 NLP 工程师,提供全流程大模型开发与部署工具集,端到端、全方位发挥大模型效能。
提供业界效果领先的 ERNIE 3.0 系列开源模型和基于 ERNIE 的前沿任务模型,满足企业和开发者对 NLP 模型开发和学习的需求,预置文本分类、文本匹配、序列标注、信息抽取、文本生成五大经典 NLP 任务,提供基于 ERNIE3.0 的预训练模型的开发和使用。
PS:这里特别注释一下,目前 ERNIEKit 套件在兼容 Paddle2.4 版本上还有点问题,稳定版本是 2.2,下属环境介绍里也有表明,主要还是对 1.x 的 fluid 兼容问题。
1.文本匹配
文本匹配是 NLP 中一个重要的基础问题,NLP 中的许多任务都可以抽象为文本匹配任务,其通常以文本相似度计算、文本相关性计算的形式,在应用系统中起核心支撑作用。
代码结构:
文本匹配任务位于./applications/tasks/text_matching
.
├── data ### 示例数据文件夹,包括各任务所需的训练集、测试集、验证集和预测集
│ ├── dev_data
│ │ └── dev.txt
│ ├── dev_data_tokenized
│ │ └── dev.txt
│ ├── dict
│ │ └── vocab.txt
│ ├── download_data.sh
│ ├── predict_data
│ │ └── infer.txt
│ ├── predict_data_tokenized
│ │ └── infer.txt
│ ├── test_data
│ │ └── test.txt
│ ├── test_data_tokenized
│ │ └── test.txt
│ ├── train_data_pairwise
│ │ └── train.txt
│ ├── train_data_pairwise_tokenized
│ │ └── train.txt
│ └── train_data_pointwise
│ └── train.txt
├── data_set_reader ### 与匹配任务相关的数据读取代码
│ └── ernie_classification_dataset_reader.py ### 使用ERNIE的FC匹配任务专用的数据读取代码
├── examples ### 各典型网络的json配置文件,infer后缀的为对应的预测配置文件
│ ├── mtch_bow_pairwise_ch_infer.json
│ ├── mtch_bow_pairwise_ch.json
│ ├── mtch_ernie_fc_pointwise_ch_infer.json
│ ├── mtch_ernie_fc_pointwise_ch.json
│ ├── mtch_ernie_pairwise_simnet_ch_infer.json
│ ├── mtch_ernie_pairwise_simnet_ch.json
│ ├── mtch_ernie_pointwise_simnet_ch_infer.json
│ └── mtch_ernie_pointwise_simnet_ch.json
├── inference ### 模型预测代码
│ └── custom_inference.py ### 文本匹配任务通用的模型预测代码
├── model ### 文本匹配任务相关的网络文件
│ ├── base_matching.py
│ ├── bow_matching_pairwise.py
│ ├── ernie_matching_fc_pointwise.py
│ ├── ernie_matching_siamese_pairwise.py
│ └── ernie_matching_siamese_pointwise.py
├── run_infer.py ### 依靠json进行模型预测的入口脚本
├── run_trainer.py ### 依靠json进行模型训练的入口脚本
└── trainer ### 模型训练和评估代码
├── custom_dynamic_trainer.py ### 动态库模式下的模型训练评估代码
└── custom_trainer.py ### 静态图模式下的模型训练评估代码
复制代码
1.1 数据准备
在文心中,基于 ERNIE 的模型都不需要用户自己分词和生成词表文件,非 ERNIE 的模型需要用户自己提前切好词,词之间以空格分隔,并生成词表文件。切词和词表生成可以使用「分词工具与词表生成工具」进行处理。
文心中的所有数据集、包含词表文件、label_map 文件等都必须为为 utf-8 格式,如果你的数据是其他格式,请使用「编码识别及转换工具」进行格式转换。
在文本匹配任务中,根据其训练方式的不同,训练集分为 Pointwise 和 Pairwise 两种格式,测试集、验证集和预测集的格式相同。
非 ERNIE 数据的 pointwise 训练集、pairwise 训练集、测试集、验证集和预测集分别存放在./applications/tasks/text_matching/data 目录下的 train_data_pointwise_tokenized、train_data_pairwise_tokenized、test_data_tokenized、dev_data_tokenized 和 predict_data_tokenized 文件夹下。
ERNIE 数据的 pointwise 训练集、pairwise 训练集、测试集、验证集和预测集分别存放在./applications/tasks/text_matching/data 目录下的 train_data_pointwise、train_data_pairwise、test_data、dev_data 和 predict_data 文件夹下。
1.1.1 非 ERNIE 模型数据
训练集
喜欢 打篮球 的 男生 喜欢 什么样 的 女生 爱 打篮球 的 男生 喜欢 什么样 的 女生 1
我 手机 丢 了 , 我 想 换 个 手机 我 想 买 个 新手机 , 求 推荐 1
大家 觉得 她 好看 吗 大家 觉得 跑 男 好看 吗 ? 0
复制代码
喜欢 打篮球 的 男生 喜欢 什么样 的 女生 爱 打篮球 的 男生 喜欢 什么样 的 女生 爱情 里 没有 谁 对 谁错 吗 ?
我 手机 丢 了 , 我 想 换 个 手机 我 想 买 个 新手机 , 求 推荐 剑灵 高级 衣料 怎么 得
大家 觉得 她 好看 吗 大家 觉得 跑 男 好看 吗 ? 照片 怎么 变成 漫画
复制代码
预测集
图片 上 得 牌子 是 什么 图片 上 是 什么 牌子 的 包
芹菜 包 什么 肉 好吃 芹菜 炒 啥 好吃
汽车 坐垫 什么 牌子 好 ? 什么 牌子 的 汽车 坐垫 好
复制代码
词表非 ERNIE 模型的词表文件示例存放在**./applications/tasks/text_matching/data/dict/vocab.txt :词表分为两列,第一列为词,第二列为 id(从 0 开始),列与列之间用\t 进行分隔。文心的词表中 [PAD]、[CLS]、[SEP]、[MASK]、[UNK]这 5 个词是必须要有的,若用户自备词表,需保证这 5 个词是存在的。部分词表示例如下所示:
[PAD] 0
[CLS] 1
[SEP] 2
[MASK] 3
的 4
这个 5
您好 6
...
[UNK] 1566
复制代码
1.1.2 ERNIE 模型数
训练集
ERNIE 数据集与非 ERNIE 数据集格式一致,不同之处在于不用分词
喜欢打篮球的男生喜欢什么样的女生 爱打篮球的男生喜欢什么样的女生 1
我手机丢了,我想换个手机 我想买个新手机,求推荐 1
大家觉得她好看吗 大家觉得跑男好看吗? 0
求秋色之空漫画全集 求秋色之空全集漫画 1
晚上睡觉带着耳机听音乐有什么害处吗? 孕妇可以戴耳机听音乐吗? 0
复制代码
喜欢打篮球的男生喜欢什么样的女生 爱打篮球的男生喜欢什么样的女生 这边的状态显示是等待确认的
我手机丢了,我想换个手机 我想买个新手机,求推荐 求一本小说是和攻撕逼的
大家觉得她好看吗 大家觉得跑男好看吗? 四川商务职业学院好不好呀
求秋色之空漫画全集 求秋色之空全集漫画 杂志社摄影照片投稿
晚上睡觉带着耳机听音乐有什么害处吗? 孕妇可以戴耳机听音乐吗? 给姓全的男生起外号
复制代码
测试集/验证集
尺有所短,后面是什么 尺有所短,后面写什么 1
为什么恐怖片会吓死人 为什么恐怖片会吓死人? 1
这是什么舞?(图片) 这是什么枪图片如下 0
这是什么意思,翻译一下 翻译一下这是什么意思 1
复制代码
海 尔 全 自 动 洗 衣 机 怎 么 样 海 尔 全 自 动 洗 衣 机 怎 么 样 海 尔 全 自 动 洗 衣 机 怎 么 用 海 尔 全 自 动 洗 衣 机 怎 么 用
在 家 电 脑 做 什 么 兼 职 好 呢 在 家 电 脑 做 什 么 兼 职 好 呢 两 台 电 脑 做 什 么 兼 职 好 呢 两 台 电 脑 做 什 么 兼 职 好 呢
这 是 什 么 动 漫 的 图 片 啊 } 这 是 什 么 动 漫 的 图 片 啊 } 这 是 动 漫 还 是 图 片 这 是 动 漫 还 是 图 片
复制代码
词表
ERNIE 词表文件格式与非 ERNIE 的格式一致,ERNIE 词表由文心 model 提供,./applications/models_hub 路径下各 ERNIE 模型文件夹下存在着对应的词表文件,用户可根据需要进行选择,具体示例如下所示:
[PAD] 0
[CLS] 1
[SEP] 2
[MASK] 3
, 4
的 5
、 6
一 7
人 8
复制代码
1.2 网络(模型)选择
文心预置的可用于文本分类的模型源文件在 applications/tasks/text_matching/model 目录下,在介绍具体的模型前先对文本匹配网络涉及到的概念进行描述。
Pointwise/Pairwise
Pointwise:输入两个文本和一个标签,可看作为一个分类问题,即判断输入的两个文本是否匹配。
Pairwise:输入为三个文本,分别为 Query 以及对应的正样本和负样本,该训练方式考虑到了文本之间的相对顺序。
单塔/双塔
单塔:先将输入文本合并,然后输入到单一的神经网络模型。
双塔:对输入文本分别进行编码成固定长度的向量,通过文本的表示向量进行交互计算得到文本之间的关系。
各个模型的特点如下所示:
面向搜索、推荐系统排序模块、召回模块的常规解决方案,具体如下:
基于单塔 Point-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 适合直接进行语义匹配 2 分类的应用场景。
基于单塔 Pair-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 对文本相似度大小的序关系建模能力更强,适合将相似度特征作为上层排序模块输入特征的应用场景。
基于双塔 Point-wise 范式的语义匹配模型 SimNet 和 Sentence Transformers, 这 2 种方案计算效率更高,适合对延时要求高、根据语义相似度进行粗排的应用场景。
1.3 ERNIE 预训练模型下载
文心提供的 ERNIE 预训练模型的下载脚本在 applications/models_hub 目录下,各预训练模型可由对应的 download_xx.sh 文件下载得到,用户可根据需求自行下载。其中,ernie_config.json 为 ERNIE 预训练模型的配置文件,vocab.txt 为 ERNIE 预训练模型的词表文件,params 目录为 ERNIE 预训练模型的参数文件目录。
1.4 模型评估指标选择
匹配任务常用的指标有:Acc(准确率)、Precision(精确率)、Recall(召回率)、pn(正逆序比)、Auc、F1 等
1.5 运行环境选择
2.开始训练 &预测
2.1 环境安装
2.1.1 环境版本要求:
python -c "import platform;print(platform.architecture()[0]);print(platform.machine())"
复制代码
2.1.2 CPU 机器和 GPU 机器的安装
CPU 机器的安装
GPU 机器的安装
使用 GPU 机器时,比 CPU 机器的安装多了 GPU 相关驱动的配置安装
1、 GPU 环境及示例
环境示例
Tesla V100 上 nvidia 驱动、cuda 版本、cudnn 版本、nccl 版本、python 版本以及 PaddlePaddle 版本
NVIDIA Driver Version: 418.67
CUDA Version: 10.1
CUDNN Version:7.6.0
NCCL Version: 2.3.5
Python 3.7.1 及以上
PaddlePaddle 2.2
Tesla K40 上 nvidia 驱动、cuda 版本、cudnn 版本、nccl 版本、python 版本以及 PaddlePaddle 版本
NVIDIA Driver Version: 418.39
CUDA Version: 10.1
CUDNN Version:7.0.3
NCCL Version: 2.3.5
Python 3.7.1 及以上
PaddlePaddle 2.2
2、 配置环境变量:
set -x
#在LD_LIBRARY_PATH中添加cuda库的路径
export LD_LIBRARY_PATH=/home/work/cuda-10.1/lib64:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/home/work/cuda-10.1/extras/CUPTI/lib64:$LD_LIBRARY_PATH
#在LD_LIBRARY_PATH中添加cudnn库的路径
export LD_LIBRARY_PATH=/home/work/cudnn/cudnn7.6.5/lib64:$LD_LIBRARY_PATH
#如果需要多卡并行训练,需要先下载NCCL,下载地址:http://bj.bcebos.com/wenxin-models/nccl.tar.gz,然后在LD_LIBRARY_PATH中添加NCCL库的路径
export LD_LIBRARY_PATH=/home/work/nccl_2.3.5/lib:$LD_LIBRARY_PATH
#如果FLAGS_sync_nccl_allreduce为1,则会在allreduce_op_handle中调用cudaStreamSynchronize(nccl_stream),这种模式在某些情况下可以获得更好的性能
export FLAGS_sync_nccl_allreduce=1
#是否是分布式训练,0标识是分布式,1标识是单机
export PADDLE_IS_LOCAL=1
export PADDLE_USE_GPU=1
#表示分配的显存块占GPU总可用显存大小的比例,范围[0,1]
export FLAGS_fraction_of_gpu_memory_to_use=0.5
#选择要使用的GPU
#export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
export CUDA_VISIBLE_DEVICES=0
#表示是否使用垃圾回收策略来优化网络的内存使用,<0表示禁用,>=0表示启用
export FLAGS_eager_delete_tensor_gb=1.0
#是否使用快速垃圾回收策略
export FLAGS_fast_eager_deletion_mode=1
#垃圾回收策略释放变量的内存大小百分比,范围为[0.0, 1.0]
export FLAGS_memory_fraction_of_eager_deletion=1
#设置python
#alias python= your python path
#alias pip= your pip path
复制代码
注意:如果需要多卡并行训练,需要先下载 NCCL,下载地址:http://bj.bcebos.com/wenxin-models/nccl.tar.gz ,然后在 LD_LIBRARY_PATH 中添加 NCCL 库的路径
#安装Ernie套件,大小在125MB左右
!git clone https://github.com/PaddlePaddle/ERNIE.git
复制代码
2.2 训练的配置文件
进入指定任务目录./applications/tasks/text_matching
配置文件:在./example 目录下,根据不同的模型有 4 种配置文件
mtch_bow_pairwise_ch.json:BowMatchingPairwise 模型的配置文件
mtch_ernie_fc_pointwise_ch.json:ErnieMatchingFcPointwise 模型的配置文件
mtch_ernie_pairwise_simnet_ch.json:ErnieMatchingSiamesePairwise 模型的配置文件
mtch_ernie_pointwise_simnet_ch.json:ErnieMatchingSiamesePointwise 模型的配置文件
├── examples ### 各典型网络的json配置文件,infer后缀的为对应的预测配置文件
│ ├── mtch_bow_pairwise_ch.json
│ ├── mtch_ernie_fc_pointwise_ch.json
│ ├── mtch_ernie_pairwise_simnet_ch.json
│ └── mtch_ernie_pointwise_simnet_ch.json
复制代码
# ernie_3.0 模型下载
# 进入models_hub目录
%cd ./ERNIE/applications/models_hub
# 运行下载脚本
!sh download_ernie_3.0_base_ch.sh
#进入对应目录
%cd ..
%cd ./tasks/text_matching
# %cd /home/aistudio/ERNIE/applications/tasks/text_matching
复制代码
2.3 训练模型
使用 run_trainer.py 脚本加载不同的配置文件从而训练不同的模型
#训练BowMatchingPairwise模型
python run_trainer.py --param_path ./examples/mtch_bow_pairwise_ch.json
#训练ErnieMatchingFcPointwise模型
python run_trainer.py --param_path ./examples/mtch_ernie_fc_pointwise_ch.json
#训练ErnieMatchingSiamesePairwise模型
python run_trainer.py --param_path ./examples/mtch_ernie_pairwise_simnet_ch.json
#训练ErnieMatchingSiamesePointwise模型
python run_trainer.py --param_path ./examples/mtch_ernie_pointwise_simnet_ch.json
复制代码
#可自行修改代码
!python run_trainer.py --param_path ./examples/mtch_ernie_fc_pointwise_ch.json
复制代码
部分结果展示
INFO: 02-14 17:24:30: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 8.4e-06
INFO: 02-14 17:24:31: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0006464745383709669 acc = 1.0 precision = 1.0 step = 530 time_cost = 0.7681
INFO: 02-14 17:24:31: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 7.6e-06
INFO: 02-14 17:24:32: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0007393724517896771 acc = 1.0 precision = 1.0 step = 540 time_cost = 0.7595
INFO: 02-14 17:24:32: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 6.8e-06
INFO: 02-14 17:24:32: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0005058677052147686 acc = 1.0 precision = 1.0 step = 550 time_cost = 0.7621
INFO: 02-14 17:24:32: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 6e-06
INFO: 02-14 17:24:33: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0005211303941905499 acc = 1.0 precision = 1.0 step = 560 time_cost = 0.7555
INFO: 02-14 17:24:33: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 5.2e-06
INFO: 02-14 17:24:34: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0006375016528181732 acc = 1.0 precision = 1.0 step = 570 time_cost = 0.7505
INFO: 02-14 17:24:34: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 4.4e-06
INFO: 02-14 17:24:35: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0006092005642130971 acc = 1.0 precision = 1.0 step = 580 time_cost = 0.7548
INFO: 02-14 17:24:35: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 3.6e-06
INFO: 02-14 17:24:35: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0005502075655385852 acc = 1.0 precision = 1.0 step = 590 time_cost = 0.7621
INFO: 02-14 17:24:35: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 2.8e-06
INFO: 02-14 17:24:36: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0006342551205307245 acc = 1.0 precision = 1.0 step = 600 time_cost = 0.7492
INFO: 02-14 17:24:36: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 2e-06
INFO: 02-14 17:24:37: ernie_matching_fc_pointwise.py:174 * 140322371376896 phase = test acc = 0.88 precision = 0.8747 time_cost = 0.968 step = 50
INFO: 02-14 17:24:37: custom_dynamic_trainer.py:138 * 140322371376896 eval step = 50
INFO: 02-14 17:24:38: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0007312577217817307 acc = 1.0 precision = 1.0 step = 610 time_cost = 1.7231
INFO: 02-14 17:24:38: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 1.2e-06
INFO: 02-14 17:24:39: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0009203955996781588 acc = 1.0 precision = 1.0 step = 620 time_cost = 0.756
INFO: 02-14 17:24:39: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 4e-07
INFO: 02-14 17:24:39: ernie_matching_fc_pointwise.py:169 * 140322371376896 phase = training loss = 0.0004998981021344662 acc = 1.0 precision = 1.0 step = 630 time_cost = 0.704
INFO: 02-14 17:24:39: custom_dynamic_trainer.py:86 * 140322371376896 current learning rate: 0.0
INFO: 02-14 17:24:39: custom_dynamic_trainer.py:104 * 140322371376896 Final test result:
复制代码
需要关注信息:模型保存路径
INFO: 02-14 17:24:43: dynamic_trainer.py:170 * 140322371376896 save path: ./output/mtch_ernie_3.0_base_fc_pointwise_ch/save_inference_model/inference_step_631
INFO: 02-14 17:24:44: run_trainer.py:102 * 140322371376896 end of run train and eval .....
复制代码
2.4 模型预测
#预测BowMatchingPairwise模型
python run_infer.py --param_path ./examples/mtch_bow_pairwise_ch_infer.json
#预测ErnieMatchingFcPointwise模型
python run_infer.py --param_path ./examples/mtch_ernie_fc_pointwise_ch_infer.json
#预测ErnieMatchingSiamesePairwise模型
python run_infer.py --param_path ./examples/mtch_ernie_pairwise_simnet_ch_infer.json
#预测ErnieMatchingSiamesePointwise模型
python run_infer.py --param_path ./examples/mtch_ernie_pointwise_simnet_ch_infer.json
复制代码
#需要自行修改路径inference_model_path"
!python run_infer.py --param_path ./examples/mtch_ernie_fc_pointwise_ch_infer.json
# 最后会生成预测文件:/home/aistudio/ERNIE/applications/tasks/text_matching/output/predict_result.txt
复制代码
部分预测结果展示:
7209396, 0.9994237422943115]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('现 在 吃 什 么 最 好 啊 现 在 吃 什 么 最 好 啊\t现 在 最 好 的 爆 吧 器 是 什 么 现 在 最 好 的 爆 吧 器 是 什 么', '[0.9997451901435852, 0.00025474882568232715]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('艾 尔 之 光 澄 说 的 是 什 么 话 艾 尔 之 光 澄 说 的 是 什 么 话\t艾 尔 之 光 澄 什 么 时 候 出 ? 艾 尔 之 光 澄 什 么 时 候 出 ?', '[0.999519944190979, 0.0004800466413144022]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('一 番 作 为 是 什 么 意 思 一 番 作 为 是 什 么 意 思\t撸 一 番 是 什 么 意 思 撸 一 番 是 什 么 意 思', '[0.9996808767318726, 0.0003191193100064993]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('微 分 子 的 性 质 是 什 么 微 分 子 的 性 质 是 什 么\t分 子 的 性 质 是 什 么 ? 分 子 的 性 质 是 什 么 ?', '[0.5368487238883972, 0.4631512463092804]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('手 机 看 电 影 哪 个 网 站 更 新 速 度 最 快 手 机 看 电 影 哪 个 网 站 更 新 速 度 最 快\t哪 个 网 站 的 电 影 更 新 最 快 哪 个 网 站 的 电 影 更 新 最 快', '[0.983171820640564, 0.016828108578920364]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('梦 见 拔 花 生 是 什 么 意 思 梦 见 拔 花 生 是 什 么 意 思\t梦 见 种 花 生 什 么 意 思 梦 见 种 花 生 什 么 意 思', '[0.9997345805168152, 0.0002654124400578439]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('逆 战 飓 风 之 龙 逆 战 飓 风 之 龙\t逆 战 送 飓 风 之 龙 的 号 逆 战 送 飓 风 之 龙 的 号', '[0.42942267656326294, 0.5705773234367371]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('移 动 宽 带 怎 么 样 ? 移 动 宽 带 怎 么 样 ?\t移 动 宽 带 怎 么 样 移 动 宽 带 怎 么 样', '[0.0005698217428289354, 0.9994301199913025]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('求 《 宝 贝 真 乖 》 全 文 , 谢 ! 求 《 宝 贝 真 乖 》 全 文 , 谢 !\t求 宝 贝 真 乖 全 文 求 宝 贝 真 乖 全 文', '[0.0024148777592927217, 0.9975850582122803]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('圆 周 率 是 谁 发 明 的 ? 圆 周 率 是 谁 发 明 的 ?\t是 谁 发 明 了 圆 周 率 是 谁 发 明 了 圆 周 率', '[0.0006937617436051369, 0.9993062019348145]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('爱 情 和 婚 姻 的 区 别 是 什 么 ? 爱 情 和 婚 姻 的 区 别 是 什 么 ?\t爱 情 与 婚 姻 有 什 么 区 别 么 ? 爱 情 与 婚 姻 有 什 么 区 别 么 ?', '[0.0005726246163249016, 0.9994274377822876]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('作 文 《 我 爱 什 么 》 作 文 《 我 爱 什 么 》\t因 为 有 什 么 , 我 更 的 作 文 因 为 有 什 么 , 我 更 的 作 文', '[0.9994762539863586, 0.0005237914156168699]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('你 为 什 么 喜 欢 周 杰 伦 译 文 你 为 什 么 喜 欢 周 杰 伦 译 文\t周 杰 伦 中 有 我 喜 欢 你 这 句 歌 词 是 什 么 歌 周 杰 伦 中 有 我 喜 欢 你 这 句 歌 词 是 什 么 歌', '[0.9997124075889587, 0.00028757069958373904]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('上 火 会 牙 痛 吗 上 火 会 牙 痛 吗\t牙 痛 是 上 火 吗 牙 痛 是 上 火 吗', '[0.002424687147140503, 0.9975753426551819]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('今 天 深 圳 天 气 怎 么 样 ? 今 天 深 圳 天 气 怎 么 样 ?\t今 天 深 圳 天 气 如 何 今 天 深 圳 天 气 如 何', '[0.0005872210604138672, 0.9994127750396729]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('谢 文 东 第 三 季 在 什 么 播 放 器 里 看 谢 文 东 第 三 季 在 什 么 播 放 器 里 看\t谢 文 东 第 三 季 要 在 什 么 播 放 器 里 看 谢 文 东 第 三 季 要 在 什 么 播 放 器 里 看', '[0.0007112747407518327, 0.9992886781692505]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('小 学 生 适 合 看 什 么 书 请 推 荐 小 学 生 适 合 看 什 么 书 请 推 荐\t有 什 么 适 合 小 学 生 六 年 级 学 生 看 的 书 有 什 么 适 合 小 学 生 六 年 级 学 生 看 的 书', '[0.035894427448511124, 0.9641055464744568]')
INFO: 02-14 17:30:07: run_infer.py:50 * 140238487475968 ('南 宁 属 于 哪 个 省 南 宁 属 于 哪 个 省\t南 宁 是 属 于 哪 个 省 南 宁 是 属 于 哪 个 省', '[0.0006054917466826737, 0.9993945360183716]')
复制代码
最后会生成预测文件:/home/aistudio/ERNIE/applications/tasks/text_matching/output/predict_result.txt
2.5 多卡指令
fleetrun --gpus=x,y run_trainer.py./examples/cls_ernie_fc_ch.json
复制代码
注意:如果需要多卡并行训练,需要先下载 NCCL,下载地址:http://bj.bcebos.com/wenxin-models/nccl.tar.gz ,然后在 LD_LIBRARY_PATH 中添加 NCCL 库的路径
3.总结
趁着情人节介绍推广一下文心 ERNIEKit 套件,赶快收藏起来,节后卷起来。文心大模型开发套件 ERNIEKit,面向 NLP 工程师,提供全流程大模型开发与部署工具集,端到端、全方位发挥大模型效能。
效果领先、简单易用、高效灵活的 NLP 算法定制开发工具,预置 30 余个大规模预训练模型、40 余个 NLP 基础任务、20 余个数据预处理工具、10 余个模型微调工具。支持在 BML 私有化平台中使用。(旗舰版)
案例集成度很高快点用起来吧!
PS:这里特别注释一下,目前 ERNIEKit 套件在兼容 Paddle2.4 版本上还有点问题,稳定版本是 2.2,下属环境介绍里也有表明,主要还是对 1.x 的 fluid 兼容问题。
项目链接
https://aistudio.baidu.com/aistudio/projectdetail/5501659?contributionType=1
评论