写点什么

通用信息抽取技术 UIE 产业案例解析,Prompt 范式落地经验分享!

  • 2023-02-28
    北京
  • 本文字数:2140 字

    阅读完需:约 7 分钟

想了解用户的评价究竟是“真心夸赞”还是“阴阳怪气”?


想快速从多角色多事件的繁杂信息中剥茧抽丝提取核心内容?


想通过聚合相似事件准确地归纳出特征标签?


……


想了解 UIE 技术在产业中的实战落地经验?通用信息抽取技术 UIE 产业案例分享来了!


近期 Prompt 范式备受关注。实际上,Prompt 思想在产业界已经有了一些成功的应用案例。由中科院软件所和百度共同提出了大一统诸多任务的通用信息抽取技术 UIE(Universal Information Extraction)。基于 Prompt 思想,将希望抽取的 Schema 信息转换成“线索词”(Schema-based Prompt)作为模型输入的前缀,使得模型理论上能够适应不同领域和任务的 Schema 信息,并按需抽取出线索词指向的结果,从而实现开放域环境下的通用信息抽取。在实体、关系、事件和情感等 4 个信息抽取任务、13 个数据集的全监督、低资源和少样本设置下,UIE 均取得了 SOTA 性能


截止目前,UIE 系列模型已发布 UIE、UIE-X、UIE-senta 三大模型,凭借其强大的零样本与小样本能力、多任务统一建模能力,成为业界在信息抽取、情感分析等任务上的首选方案。


  • 2022 年 5 月,飞桨自然语言处理模型库 PaddleNLP 结合文心大模型中的知识增强 NLP 大模型 ERNIE 3.0 ,发挥 UIE 在中文任务上的强大潜力,推出首个面向通用信息抽取的产业级技术方案

  • 2022 年 11 月,UIE 新增文档信息抽取能力——UIE-X,OCR、版面分析、跨模态文档信息抽取能力一应俱全。UIE-X 基于文心 ERNIE-Layout跨模态布局增强预训练模型,集成了 PaddleOCR的 PP-OCR、PP-Structure 版面分析等领先能力。

  • 2022 年 12 月,PaddleNLP 以 UIE 为训练底座,在大量情感分析数据集上进一步训练,增强了模型对于情感知识的处理能力,推出基于 UIE 的情感分析方案(下表简写 UIE-senta)[6],覆盖句子级情感极性分类、属性抽取、观点抽取、属性级情感极性分类等多项情感任务,且解决了属性聚合和隐性观点抽取难题,并提供情感分析结果可视化能力。


图:UIE 系列模型介绍


来自云南能投财务服务有限公司黑蚁资本的两位讲师将带来精彩课程,解析 UIE 技术在多领域的应用场景,分享落地实战经验。


2 月 28 日、3 月 1 日,飞桨直播间、B 站直播间,两场连播,不见不散!

课程介绍

2 月 28 日


课程名称


【金融】复杂单据信息抽取——财务系统智能化


主讲人


钟榆星 | 云南能投财务服务有限公司


课程内容


财务管理是企业管理的重要组成部分,财务人员常常需要将业务单据表格中的数据通过人工填制到财务系统里,这往往费时费力,且容易产生错误。云南能投财务服务有限公司(以下简称云南能投),成立于 2020 年 4 月,是云南省能源投资集团有限公司全资子公司。为有效支撑集团财务管控落地执行,起到支持集团国际化发展、战略决策的作用,云南能投技术支持部利用 PaddleNLP 提供的文档信息抽取全流程解决方案,开发了基于 UIE-X 的表格信息抽取方案,实现复杂结构表格的关系型抽取,帮助业务、财务将常用表格快速导入业务系统,取代人工手录,高效推动了财务共享智能提单业务的快速落地。


图:云南能投基于UIE-X开发了表格信息抽取方案


3 月 1 日


课程名称


【零售】客户意见洞察促进消费品牌经营转型


主讲人


Jeru | 黑蚁资本


课程内容


黑蚁资本,是一家深耕消费领域投资的企业,成立之初就决心让“投后服务”成为机构的核心能力之一,而“数字化”正是黑蚁服务被投企业的重要内容。随着餐饮行业进入线上线下、堂食外卖并重的“双主场”时代,面对铺天盖地的用户评论数据,如何用数字化手段优化经营成为餐饮企业降本增效的关键。为了帮助被投企业提升评价数据的处理效率,黑蚁投后数字化团队基于 UIE 开发了用户评论洞察系统,帮助品牌高效深入了解用户反馈,自动抽取出高价值信息,实现量化统计分析,从而降低经营成本,优化产品和服务,提升市场竞争力。


图:黑蚁资本基于UIE开发了用户评论洞察系统


技术拓展——文心大模型

随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。


文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达 36 个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。



从技术研发到落地应用,大模型的发展已经进入产业落地的关键期,欢迎前往文心大模型官网了解详情。


  • 文心大模型官网


https://wenxin.baidu.com/


相关项目

  • PaddleNLP GitHub 地址

https://github.com/PaddlePaddle/PaddleNLP

  • PaddleNLP Gitee 地址

https://gitee.com/paddlepaddle/PaddleNLP


参考

[1]Unified Structure Generation for Universal Information Extraction

[2]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

[3]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction

[4]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

[5]https://github.com/PaddlePaddle/PaddleOCR[6]https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis

用户头像

还未添加个人签名 2022-12-26 加入

还未添加个人简介

评论

发布
暂无评论
通用信息抽取技术UIE产业案例解析,Prompt范式落地经验分享!_nlp_飞桨PaddlePaddle_InfoQ写作社区