SOTA 效果 + 一键预测,PaddleNLP 带你玩转 11 类 NLP 任务
2021 年 10 月,PaddleNLP 聚合众多百度自然语言处理领域自研算法以及社区开源模型,并凭借飞桨核心框架的能力升级开放了开箱即用、极致优化的高性能一键预测功能,备受开发者喜爱。开源一年以来,团队精耕细作,不断发布适合产业界应用的模型、场景、预测加速与部署能力,在 GitHub 和 Papers With Code 等平台上持续得到开发者的关注。

近日,PaddleNLP 中月均模型下载量 1.9w 的一键预测功能全新升级!带来更丰富的功能、更强的效果、更便捷的使用方式!我们一起来看看吧。
更丰富的功能

全场景支持
覆盖 NLU(Natural Language Understanding,自然语言理解)和 NLG(Natural LanguageGeneration,自然语言生成)领域十一大经典任务:中文分词、词性标注、命名实体识别、句法分析、中文知识标注、文本纠错、文本相似度、情感分析、生成式问答、智能写诗、开放域对话。
文档级输入
首个支持文档级输入的开箱即用 NLP 工具,解决预训练模型对输入文本的长度限制问题,大大节省用户输入长文本时的代码开发量。

定制化训练
除直接预测外,还支持使用自己的数据集,进行定制化训练。传入模型自定义路径后,仍可使用一键预测能力。

产业级效果
PaddleNLP 一方面聚合了百度在语言与知识领域多年的业务积淀和领先的开源成果,如词法分析工具 LAC、句法分析工具 DDParser、情感分析系统 Senta、文心 ERNIE 系列家族模型、开放域对话预训练模型 PLATO、文本知识关联框架解语等;另一方面也涵盖了开源社区优秀的中文预训练模型如 CPM 等。实验证明,PaddleNLP 在效果上全面领先同类开源产品。
分词
集成 jieba、LAC 分词工具,重磅推出基于解语(首个覆盖中文全词类的知识库——百科知识树及知识标注框架)的分词模式:实体粒度分词精度更高,语义片段完整,在知识图谱构建等应用中优势明显。

以上面这句话为例,PaddleNLP 擅长精准切分实体词如“北京冬奥会”、挖掘领域新词如“自由式滑雪”等。在开源数据集上对模型效果进行评测,分词效果显著优于同类工具。

备注:该表格列出的指标是各个工具在不同数据集上进行模型微调训练后得出,这是因为目前分词结果并没有统一的标准,比如 WEIBO 数据集将『总冠军』作为一个完整的单词,而 MSR 数据集会切分为『总 冠军』,通过微调训练使得各个工具可在同一个分词标准下进行比较。
命名实体识别
两种模式:
1️⃣基于百度词法分析工具 LAC 的快速模式:训练语料包含近 2200 万句子,覆盖多种领域;
2️⃣基于百度解语的精确模式:具备最全中文实体标签的命名实体识别工具,不仅适用于通用领域,也适用于生物医疗、教育等垂类领域。包含 66 种词性及专名类别标签(同类产品的标签数是 15 个左右)。

PaddleNLP 精确模式下的实体标签丰富,且对部分类目做了更细的划分,有利于进行精准信息抽取、构建知识图谱、支撑企业搜索等应用。例如上图例子中,『北京冬奥会』被识别为『文化类_奖项赛事活动』,而非『nz』(其他专名),可以和其他『文化类』实体有效区分开来;『自由式滑雪』也被完整识别为『事件类』实体。
在通用和垂类领域的开源数据集上比较 PaddleNLP 与其他工具的专名识别效果,PaddleNLP 快速模式和精准模式效果均远超同类工具,如下左图所示:

备注:在垂类领域,从金融、法律、经济领域中随机选取 100 条样本,人工评估精确模式效果,如上右图所示,PaddleNLP 的实体抽取效果显著优于同类工具(Good:代表 PaddleNLP 更优)。
依存句法分析
基于已知最大规模中文依存句法树库(包含近 100 万句子)研发的依存句法分析工具,包含 SBV(主谓关系)、VOB(动宾关系)等 14 种标注关系:

情感分析
集成百度自研的情感知识增强预训练模型 SKEP,利用情感知识构建预训练目标,在海量中文数据上进行预训练,为各类情感分析任务提供统一且强大的情感语义表示能力。

文本相似度
收集百度知道 2200 万对相似句组,基于 SimBERT[1]训练文本相似度模型,在多个数据集上达到了领先效果。

文本纠错
ERNIE-CSC 在 ERNIE 预训练模型的基础上,融合了拼音特征的端到端中文拼写纠错模型,在 SIGHAN 数据集上取得了 SOTA 的效果。

首个中文多轮开放域对话预测接口;支持生成式问答、写诗等趣味应用。
开放域对话使用的 PLATO-MINI 模型在十亿级别的中文对话数据上进行了预训练,闲聊场景对话效果显著。
生成式问答、写诗基于开源社区优秀中文预训练模型 CPM [2],参数规模 26 亿,预训练中文数据达 100GB。

简捷易用
通过调用 PaddleNLP 的 Taskflow API,传入任务名称即可自动选择最优的预置模型,并且以极致优化的方式完成推理。

评论