基于 Label studio 实现 UIE 信息抽取智能标注方案,提升标注效率!
基于 Label studio 实现 UIE 信息抽取智能标注方案,提升标注效率!
项目链接见文末
人工标注的缺点主要有以下几点:
产能低:人工标注需要大量的人力物力投入,且标注速度慢,产能低,无法满足大规模标注的需求。
受限条件多:人工标注受到人力、物力、时间等条件的限制,无法适应所有的标注场景,尤其是一些复杂的标注任务。
易受主观因素影响:人工标注受到人为因素的影响,如标注人员的专业素养、标注态度、主观判断等,易受到人为误差的干扰,导致标注结果不准确。
难以满足个性化需求:人工标注无法满足所有标注场景和个性化需求,无法精确地标注出所有的关键信息,需要使用者自行选择和判断。
相比之下,智能标注的优势主要包括:
效率更高:智能标注可以自动化地进行标注,能够快速地生成标注结果,减少了人工标注所需的时间和精力,提高了标注效率。
精度更高:智能标注采用了先进的人工智能技术,能够对图像进行深度学习和处理,能够生成更加准确和精细的标注结果,特别是对于一些细节和特征的标注,手动标注往往存在误差较大的问题。
自动纠错:智能标注可以自动检测标注结果中的错误,并进行自动修正,能够有效地避免标注错误带来的影响,提高了标注的准确性。
灵活性更强:智能标注可以根据不同的应用场景和需求,生成不同类型的标注结果,能够满足用户的多样化需求,提高了标注的适用性。
总之,智能标注相对于人工标注有着更高的效率、更高的精度、更强的灵活性和更好的适用性,可以更好地满足用户的需求。
自然语言处理信息抽取智能标注方案包括以下几种:
基于规则的标注方案:通过编写一系列规则来识别文本中的实体、关系等信息,并将其标注。
基于规则的标注方案是一种传统的方法,它需要人工编写规则来识别文本中的实体、关系等信息,并将其标注。
这种方法的优点是易于理解和实现,但缺点是需要大量的人工工作,并且规则难以覆盖所有情况。
基于机器学习的标注方案:通过训练模型来自动识别文本中的实体、关系等信息,并将其标注。
基于机器学习的标注方案是一种自动化的方法,它使用已经标注好的数据集训练模型,并使用模型来自动标注文本中的实体、关系等信息。
这种方法的优点是可以处理大量的数据,并且可以自适应地调整模型,但缺点是需要大量的标注数据和计算资源,并且模型的性能受到标注数据的质量和数量的限制。
基于深度学习的标注方案:通过使用深度学习模型来自动识别文本中的实体、关系等信息,并将其标注。
基于深度学习的标注方案是一种最新的方法,它使用深度学习模型来自动从文本中提取实体、关系等信息,并将其标注。
这种方法的优点是可以处理大量的数据,并且具有较高的准确性,但缺点是需要大量的标注数据和计算资源,并且模型的训练和调试需要专业的知识和技能。
基于半监督学习的标注方案:通过使用少量的手工标注数据和大量的未标注数据来训练模型,从而实现自动标注。
基于半监督学习的标注方案是一种利用少量的手工标注数据和大量的未标注数据来训练模型的方法。
这种方法的优点是可以利用未标注数据来提高模型的性能,但缺点是需要大量的未标注数据和计算资源,并且模型的性能受到标注数据的质量
基于远程监督的标注方案:利用已知的知识库来自动标注文本中的实体、关系等信息,从而减少手工标注的工作量。
本次项目主要讲解的是基于半监督深度学习的标注方案。
1.UIE-base 预训练模型进行命名实体识别
使用默认模型 uie-base 进行命名实体识别,效果还不错,大多数的命名实体被识别出来了,但依然存在部分实体未被识别出,部分文本被误识别等问题。比如 "Scott Aaronson" 被识别为了两个人名,比如 "得克萨斯大学奥斯汀分校" 没有被识别出来。为提升识别效果,将通过标注少量数据对模型进行微调。
2.基于 Label Studio 的数据标注
在将智能标注前,先讲解手动标注,通过手动标注后才会感知到智能标注的提效和交互性。
由于 AI studio 不支持在线标注,这里大家在本地端进行标注,标注完毕后上传数据集即可
2.1 Label Studio 安装
以下标注示例用到的环境配置:
Python 3.8+
label-studio == 1.7.1
paddleocr >= 2.6.0.1
在终端(terminal)使用 pip 安装 label-studio:
安装完成后,运行以下命令行:
在浏览器打开http://localhost:8080/,输入用户名和密码登录,开始使用 label-studio 进行标注。
2.2 实体抽取任务标注
项目创建点击创建(Create)开始创建一个新的项目,填写项目名称、描述,然后选择 Object Detection with Bounding Boxes。
填写项目名称、描述
命名实体识别任务选择
添加标签(也可跳过后续在 Setting/Labeling Interface 中配置)
数据上传先从本地上传 txt 格式文件,选择 List of tasks,然后选择导入本项目。
实体抽取标注
数据导出勾选已标注文本 ID,选择导出的文件类型为 JSON,导出数据:
3. 模型微调
3.1 数据转换
在终端中执行以下脚本,将 label studio 导出的数据文件格式转换成 doccano 导出的数据文件格式。
参数说明:
labelstudio_file: label studio 的导出文件路径(仅支持 JSON 格式)。
doccano_file: doccano 格式的数据文件保存路径,默认为 "doccano_ext.jsonl"。
task_type: 任务类型,可选有抽取("ext")和分类("cls")两种类型的任务,默认为 "ext"。
参数说明:
doccano_file: doccano 格式的数据标注文件路径。
task_type: 选择任务类型,可选有抽取("ext")和分类("cls")两种类型的任务。
save_dir: 训练数据的保存目录,默认存储在 data 目录下。
negative_ratio: 最大负例比例,该参数只对抽取类型任务有效,适当构造负例可提升模型效果。负例数量和实际的标签数量有关,最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效,默认为 5。为了保证评估指标的准确性,验证集和测试集默认构造全负例。
splits: 划分数据集时训练集、验证集、测试集所占的比例。默认为 [0.8, 0.1, 0.1] 。
options: 指定分类任务的类别标签,该参数只对分类类型任务有效。默认为 ["正向", "负向"]。
prompt_prefix: 声明分类任务的 prompt 前缀信息,该参数只对分类类型任务有效。默认为 "情感倾向"。
is_shuffle: 是否对数据集进行随机打散,默认为 True。
seed: 随机种子,默认为 1000。
separator: 实体类别/评价维度与分类标签的分隔符,该参数只对实体/评价维度级分类任务有效。默认为 "##"。
注:
每次执行 doccano.py 脚本,将会覆盖已有的同名数据文件。
3.2 Finetune
在终端中执行以下脚本进行模型微调。
结果展示:
参数说明:
train_path: 训练集文件路径。
dev_path: 验证集文件路径。
save_dir: 模型存储路径,默认为 "./checkpoint"。
learning_rate: 学习率,默认为 1e-5。
batch_size: 批处理大小,请结合机器情况进行调整,默认为 16。
max_seq_len: 文本最大切分长度,输入超过最大长度时会对输入文本进行自动切分,默认为 512。
num_epochs: 训练轮数,默认为 100。
model: 选择模型,程序会基于选择的模型进行模型微调,可选有 "uie-base", "uie-medium", "uie-mini", "uie-micro" 和 "uie-nano",默认为 "uie-base"。
seed: 随机种子,默认为 1000。
logging_steps: 日志打印的间隔 steps 数,默认为 10。
valid_steps: evaluate 的间隔 steps 数,默认为 100。
device: 选用什么设备进行训练,可选 "cpu" 或 "gpu"。
init_from_ckpt: 初始化模型参数的路径,可从断点处继续训练。
3.3 模型评估
在终端中执行以下脚本进行模型评估。
输出示例:
参数说明:
model_path: 进行评估的模型文件夹路径,路径下需包含模型权重文件 model_state.pdparams 及配置文件 model_config.json。
test_path: 进行评估的测试集文件。
batch_size: 批处理大小,请结合机器情况进行调整,默认为 16。
max_seq_len: 文本最大切分长度,输入超过最大长度时会对输入文本进行自动切分,默认为 512。
debug: 是否开启 debug 模式对每个正例类别分别进行评估,该模式仅用于模型调试,默认关闭。
debug
模式输出示例:
3.4 微调后效果
基于 50 条标注数据进行模型微调后,效果有所提升。
4.基于 Label Studio 的智能标注(含自动训练)
部分效果展示更多详细内容查看链接:人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
里面有详细代码实现
查看预标注好的数据,如有必要,对标注进行修改。
5.模型部署
以下是 UIE Python 端的部署流程,包括环境准备、模型导出和使用示例。
5.1 UIE Python 端的部署流程
模型导出模型训练、压缩时已经自动进行了静态图的导出以及 tokenizer 配置文件保存,保存路径 ${finetuned_model} 下应该有 .pdimodel、.pdiparams 模型文件可用于推理。
模型部署以下示例展示如何基于 FastDeploy 库完成 UIE 模型完成通用信息抽取任务的 Python 预测部署。先参考 UIE 模型部署安装 FastDeploy Python 依赖包。 可通过命令行参数--device 以及--backend 指定运行在不同的硬件以及推理引擎后端,并使用--model_dir 参数指定运行的模型。模型目录为 model_zoo/uie/checkpoint/model_best(用户可按实际情况设置)。
FastDeploy 提供各平台预编译库,供开发者直接下载安装使用。当然 FastDeploy 编译也非常容易,开发者也可根据自身需求编译 FastDeploy。
GPU 端
为了在 GPU 上获得最佳的推理性能和稳定性,请先确保机器已正确安装 NVIDIA 相关驱动和基础软件,确保 CUDA >= 11.2,cuDNN >= 8.1.1,并使用以下命令安装所需依赖
5.2 Serving 服务编写
编写 predictor.py
文件:
导入依赖库:除了业务中用到的库之外,需要额外依赖 serving。
后处理(可选):根据需要对模型返回的结果进行处理,以更好地展示。本教程中通过
format()
函数和add_o()
函数修改命名实体识别结果的形式。Predictor 类: 不需要继承其他的类,但是至少需要提供
__init__
和predict
两个接口。在
__init__
中定义实体抽取结构,通过Taskflow
加载模型。在
predict
中进行预测,返回后处理的结果。
运行:启动服务。
在项目根目录下已经提供了编写好的 predictor.py 可以直接在后续使用。
6.总结
Label Studio 所提供的 Machine Learning Backend 提供了一个比较灵活的辅助人工标注的框架,我们通过它确实可以加快 nlp 数据的标注
Label Studio 的 enterprise 版本提供了 Active Learning 的流程,不过从其描述看这个流程并不完美,尤其是 fit 部分,由于 Label Studio 低估了「Train」所花费的时间,所以每次标注都自动训练的流程可能并不会那么顺滑(会在链接时候等待一段时间)
这次项目并没有使用 Label Studio 所提供的「Auto-Annotation」的功能,因为它存在重复标注的问题
既然 Label Studio 提供了它的 api 那其实可玩的东西还是很多的,配合 webhook 等内容可能会让这个标注和训练的流程做的更加高效
此外目前使用的 UIE 码源是前几个版本的,最新官网更新了一些训练升级 API,后续再重新优化现有项目。
本人对容器相关技术不太了解,所以在一些容器化技术操作上更多就是借鉴使用了,如有疑问评论区留言即可。
更多详情请参考 Label Studio 官网:
6.1 项目链接
部分效果展示更多详细内容查看链接:
人工智能知识图谱之信息抽取:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。
里面有详细代码实现
版权声明: 本文为 InfoQ 作者【汀丶】的原创文章。
原文链接:【http://xie.infoq.cn/article/a12a44c278e278805455a628b】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论