聚焦信息抽取前沿难题,CCKS- 千言通用信息抽取竞赛报名启动
信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与方法在通用场景和任务下的抽取性能。
为此,中国科学院软件研究所、百度公司与千言开源数据集项目(www.luge.ai)联合发起业界首个通用的信息抽取评测——“CCKS-千言通用信息抽取竞赛”。本赛事是千言多形态信息抽取的全新升级,不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方法面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用。
竞赛于 4 月 11 日开启报名,并将在 8 月 25 日于 2022 年全国知识图谱与语义计算大会(CCKS-2022)召开评测研讨会并进行颁奖。百度将为参赛选手提供全面的技术资源、平台支持和丰厚奖池。
任务形式
信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中,特定的抽取需求是指抽取任务中的抽取框架,主要由抽取类别(人物名称、企业上市事件)及目标结构(实体、关系、事件等)组成。
本评测的数据及抽取框架主要来自于百度通用信息抽取的应用案例。本次评测构建了多领域多场景下的多种抽取框架,包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务,以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。
任务示例如下:
示例输入 1 事件抽取
输入文本(Text):
2 月 8 日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以 188.25 分获得金牌!
抽取需求(Schema):
事件定义:
参赛选手在体育竞赛中夺得第一名。
<冠军> 于 <夺冠时间> 在 <夺冠赛事> 获得冠军。
示例输出 1
信息结构(Structure):
示例输入 2 对话情感抽取
输入文本(Text):
A: 我昨晚又看了肖申克的救赎,简直百看不厌
B: 是的,它是几代人的经典。
A: 不过,这部剧的主演,我觉得蒂姆罗宾斯的演技不算那么出众。
抽取需求(Schema):
情感定义:
目标对象: 情感关系的对象
情感表达: 表达正/负向情感的短语或者词
示例输出 2
信息结构(Structure):
数据描述
最终测试分为已知抽取框架(Seen Schema)和未知抽取框架(Unseen Schema)两部分:
Seen Schema:举办方收集了大量开源数据集供参赛者构建模型,该赛道主要评测现有技术基于标记数据构建模型的能力,数据集列表及下载链接请见赛事报名页;
Unseen Schema:主要来自百度信息抽取的实际案例,举办方仅提供少量的验证数据,用于参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力。
赛程安排
1、报名时间:4 月 11 日-7 月 25 日
2、验证数据及 baseline 发布:4 月 25 日
3、新抽取框架发布:6 月 20 日
4、测试数据发布:7 月 25 日
5、测试结果提交截止:7 月 31 日
6、评测论文提交:8 月 12 日
7、CCKS 会议(评测报告及颁奖):8 月 25 日-28 日
评测奖励
千言-通用信息抽取比赛的最终获奖团队将获得:
丰厚奖金:第一名 30000 人民币、第二名 20000 人民币、第三名 10000 人民币、创新奖 5000 元(共设立两项)。
荣誉证书:获奖团队将由赛事主办方颁发权威获奖证书。
同时,参赛者也将获得以下福利:
学习交流机会:在赛事群中与参赛者、组织者深入交流;
前沿技术实践:在竞赛平台展开前沿的多任务建模实践;
精美礼品 &参赛证明:正式报名参赛并提交最终结果的队伍每位成员将获得千言数据集精美的定制周边一份,并发放参赛证明。
评论