写点什么

[Paddle] ERNIE-UIE 通用信息抽取模型(含自定义细分领域模型训练)

作者:alexgaoyh
  • 2023-06-27
    河南
  • 本文字数:741 字

    阅读完需:约 2 分钟

介绍

  ERNIE-UIE信息抽取模型可以进行关键信息抽取,可参照官网安装流程进行配置和使用。


  但是在实际的细分领域中(细分的应用场景),信息抽取的效果并不好(中文书写习惯截然不同),本文按照官网的方式,进行模型训练从而进一步提升效果,并进行记录。

环境配置

  1. Paddle、ERNIE-UIE

  2. Paddle Install

  3. ERNIE-UIE Install

  4. 正确安装后能够正确返回信息抽取的结果;


  1. doccano 数据标注

  2. 介绍

  3. 安装

  4. doccano 环境安装成功后,登录系统并创建一个[序列标注]类型的项目[regex],如图所示定义了三个 Tag: ['start', 'label', 'end']。图片无法正常查看的话, 访问

  5. 在[regex]项目下,导入数据集并且进行标注,如图所示,每一段话按顺序标注['start', 'label', 'end'] 三个部分。图片无法正常查看的话, 访问

  6. 如上图所示,选中数据进行导出,会下载一个 zip 文件夹,内部包含一个名为[admin.jsonl]的文件,将其重命名为 doccano_ext.json。


  1. PaddleNLP

  2. 使用 git clone 命令下载PaddleNLP

  3. 进入到 /model_zoo/uie 文件夹并创建 data 文件夹,并将上传上述生成的 doccano_ext.json 文件。

  4. 进行数据转换,执行如下命令,会在 data 文件夹下生成:train.txt、test.txt、dev.txt、sample_index.json 这些文件。

  5. 建议在 GPU 环境下进行模型微调,作者租用了一台 A30(24G 显存)进行的训练。

  6. 使用定制的模型进行预测,修改 ERNIE-UIE 官网提供的代码(注意 Taskflow 是通过 task_path 指定模型权重文件的路径)

  7. 通过结果能改看到模型发生了变化。


  1. 总结


  通过标注少量数据对 UIE 模型进行微调,将其应用到垂直细分领域,提升了信息提取的效果,能够更方便的将其应用到细分的实际应用场景中。


  1. 参考

  2. https://github.com/PaddlePaddle/PaddleNLP

  3. https://github.com/doccano/doccano

  4. https://pap-docs.pap.net.cn/#/md/other/paddle/paddle-install


发布于: 刚刚阅读数: 4
用户头像

alexgaoyh

关注

DevOps 2013-12-08 加入

https://gitee.com/alexgaoyh

评论

发布
暂无评论
[Paddle] ERNIE-UIE 通用信息抽取模型(含自定义细分领域模型训练)_paddle_alexgaoyh_InfoQ写作社区