ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在 NYT11-HRL 等数据集上超过了全监督模型
ChatIE:通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取,并在 NYT11-HRL 等数据集上超过了全监督模型
零样本信息抽取(Information Extraction,IE)旨在从无标注文本中建立 IE 系统,因为很少涉及人为干预,该问题非常具有挑战性。但零样本 IE 不再需要标注数据时耗费的时间和人力,因此十分重要。近来的大规模语言模型(例如 GPT-3,Chat GPT)在零样本设置下取得了很好的表现,这启发我们探索基于提示的方法来解决零样本 IE 任务。我们提出一个问题:不经过训练来实现零样本信息抽取是否可行?我们将零样本 IE 任务转变为一个两阶段框架的多轮问答问题(Chat IE),并在三个 IE 任务中广泛评估了该框架:实体关系三元组抽取、命名实体识别和事件抽取。在两个语言的 6 个数据集上的实验结果表明,Chat IE 取得了非常好的效果,甚至在几个数据集上(例如 NYT11-HRL)上超过了全监督模型的表现。我们的工作能够为有限资源下 IE 系统的建立奠定基础。
1.方法介绍
结果展示:
Description
通过 ChatIE 和提示功能的增强,它旨在从原始句子中自动提取结构化信息,并对输入句子进行有价值的深度分析。利用有价值的结构化信息可以帮助企业做出深刻的业务改进决策。demo.
1.1 RE
This task aims to extract triples from plain texts, such as (China, capital, Beijing) , (《如懿传》, 主演, 周迅).
Input
sentence: a plain text.
relation type list (rtl)* : {'relation type 1': ['subject1', 'object1'], 'relation type 2': ['subject2', 'object2'], ...}
PS: 表示可选,我们为它们设置默认值。但是为了更好地提取,您应该根据应用程序场景指定三个列表。
Examples
sentence: Four other Google executives the chief financial officer , George Reyes ; the senior vice president for business operations , Shona Brown ; the chief legal officer , David Drummond ; and the senior vice president for product management , Jonathan Rosenberg earned salaries of $ 250,000 each .
rtl: default, see file "default-types"
ouptut:
sentence: 第五部:《如懿传》《如懿传》是一部古装宫廷情感电视剧,由汪俊执导,周迅、霍建华、张钧甯、董洁、辛芷蕾、童瑶、李纯、邬君梅等主演。
rtl: default, see file "default-types"
ouptut:
1.2 NER
该任务旨在从纯文本中提取实体, such as (LOC, Beijing) , (人物, 周恩来).
Input
sentence: a plain text.
entity type list (etl)* : ['entity type 1', 'entity type 2', ...]
Examples
sentence: James worked for Google in Beijing, the capital of China.
etl: ['LOC', 'MISC', 'ORG', 'PER']
ouptut:
sentence: 中国共产党创立于中华民国大陆时期,由陈独秀和李大钊领导组织。
etl: ['组织机构', '地点', '人物']
ouptut:
1.3 EE
该任务旨在从纯文本中提取事件, such as {Life-Divorce: {Person: Bob, Time: today, Place: America}} , {竞赛行为-晋级: {时间: 无, 晋级方: 西北狼, 晋级赛事: 中甲榜首之争}}.
Input
sentence: a plain text.
event type list (etl)* : {'event type 1': ['argument role 1', 'argument role 2', ...], ...}
sentence: Yesterday Bob and his wife got divorced in Guangzhou.
etl: default, see file "default-types"
ouptut:
sentence: 在 2022 年卡塔尔世界杯决赛中,阿根廷以点球大战险胜法国。
etl: default, see file "default-types"
ouptut:
2.本地使用教学
react+flask
cd
front-end
and Runnpm install
to download required dependencies.Run
npm run start
. GPT4IE should open up in a new browser tab.cd
back-end
and Runpython run.py
.note: node-version v14.17.4 npm-version 9.6.0
you may need to configure proxy on your machine.
3.Prompt 提示词
3.1 EE 提示词
3.2 RE
部分展示
3.3 NER
4.更多案例展示
4.1 RE
4.2 NER
4.3 EE
4.4 其他
项目码源见文末
更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。
版权声明: 本文为 InfoQ 作者【汀丶人工智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/04d85ac2d15c9f18c19920544】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论