SOTA 效果 + 一键预测，PaddleNLP 带你玩转 11 类 NLP 任务

2022 年 3 月 25 日
本文字数：1787 字
阅读完需：约 6 分钟

2021 年 10 月，PaddleNLP 聚合众多百度自然语言处理领域自研算法以及社区开源模型，并凭借飞桨核心框架的能力升级开放了开箱即用、极致优化的高性能一键预测功能，备受开发者喜爱。开源一年以来，团队精耕细作，不断发布适合产业界应用的模型、场景、预测加速与部署能力，在 GitHub 和 Papers With Code 等平台上持续得到开发者的关注。

近日，PaddleNLP 中月均模型下载量 1.9w 的一键预测功能全新升级！带来更丰富的功能、更强的效果、更便捷的使用方式！我们一起来看看吧。

更丰富的功能

全场景支持

覆盖 NLU（Natural Language Understanding，自然语言理解）和 NLG（Natural LanguageGeneration，自然语言生成）领域十一大经典任务：中文分词、词性标注、命名实体识别、句法分析、中文知识标注、文本纠错、文本相似度、情感分析、生成式问答、智能写诗、开放域对话。

文档级输入

首个支持文档级输入的开箱即用 NLP 工具，解决预训练模型对输入文本的长度限制问题，大大节省用户输入长文本时的代码开发量。

定制化训练

除直接预测外，还支持使用自己的数据集，进行定制化训练。传入模型自定义路径后，仍可使用一键预测能力。

产业级效果

PaddleNLP 一方面聚合了百度在语言与知识领域多年的业务积淀和领先的开源成果，如词法分析工具 LAC、句法分析工具 DDParser、情感分析系统 Senta、文心 ERNIE 系列家族模型、开放域对话预训练模型 PLATO、文本知识关联框架解语等；另一方面也涵盖了开源社区优秀的中文预训练模型如 CPM 等。实验证明，PaddleNLP 在效果上全面领先同类开源产品。

分词

集成 jieba、LAC 分词工具，重磅推出基于解语（首个覆盖中文全词类的知识库——百科知识树及知识标注框架）的分词模式：实体粒度分词精度更高，语义片段完整，在知识图谱构建等应用中优势明显。

以上面这句话为例，PaddleNLP 擅长精准切分实体词如“北京冬奥会”、挖掘领域新词如“自由式滑雪”等。在开源数据集上对模型效果进行评测，分词效果显著优于同类工具。

备注：该表格列出的指标是各个工具在不同数据集上进行模型微调训练后得出，这是因为目前分词结果并没有统一的标准，比如 WEIBO 数据集将『总冠军』作为一个完整的单词，而 MSR 数据集会切分为『总冠军』，通过微调训练使得各个工具可在同一个分词标准下进行比较。

命名实体识别

两种模式：

1️⃣基于百度词法分析工具 LAC 的快速模式：训练语料包含近 2200 万句子，覆盖多种领域；

2️⃣基于百度解语的精确模式：具备最全中文实体标签的命名实体识别工具，不仅适用于通用领域，也适用于生物医疗、教育等垂类领域。包含 66 种词性及专名类别标签（同类产品的标签数是 15 个左右）。

PaddleNLP 精确模式下的实体标签丰富，且对部分类目做了更细的划分，有利于进行精准信息抽取、构建知识图谱、支撑企业搜索等应用。例如上图例子中，『北京冬奥会』被识别为『文化类_奖项赛事活动』，而非『nz』（其他专名），可以和其他『文化类』实体有效区分开来；『自由式滑雪』也被完整识别为『事件类』实体。

在通用和垂类领域的开源数据集上比较 PaddleNLP 与其他工具的专名识别效果，PaddleNLP 快速模式和精准模式效果均远超同类工具，如下左图所示：