写点什么

spaCy v2.3 发布:新增 5 种语言模型与性能优化

作者:qife
  • 2025-08-10
    福建
  • 本文字数:557 字

    阅读完需:约 2 分钟

spaCy v2.3 发布:新增 5 种语言模型与性能优化

spaCy 自然语言处理库的 2.3 版本新增了五种语言的预训练模型:中文、日语、丹麦语、波兰语和罗马尼亚语。所有 15 个模型家族均更新了词向量并提升准确率,同时减少了带向量模型的体积和加载时间。

新增语言支持

  • 中文模型:采用 pkuseg 进行分词,默认支持 jieba,分词准确率达 94.6%

  • 日语模型:改用 SudachiPy 实现分词和词性标注,安装仅需pip install spacy[ja]

模型性能优化

  • 词向量改进:大模型(lg)包含 50 万唯一向量,中模型(md)保留 2 万高频词向量

  • 训练数据更新:基于 Universal Dependencies v2.5 语料库,标注和解析准确率提升 3-5%

  • 体积缩减:中型模型体积减少 50%,英文大模型缩小 120MB

  • 加载加速:带向量模型的加载速度提升 2-4 倍

技术细节

  • 自定义训练 FastText 词向量(CBOW, 300 维,5 字符 n-grams)

  • 移除了可推导的 lexeme 属性以减小模型体积

  • 新增细粒度词性标签(如法语 ADP_DET 合并标签)

兼容性说明

v2.2 训练的模型需重新训练以适应新版本,可通过python -m spacy validate检查兼容性。

配套资源更新

  • 在线课程《Advanced NLP with spaCy》新增日语、德语和西班牙语版本

  • 新增实体链接和规则匹配等实战教程视频


该版本是 spaCy v2 的最终主要更新,v3 版本将重点改进训练流程和配置系统,预计近期发布预览版。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
spaCy v2.3发布:新增5种语言模型与性能优化_自然语言处理_qife_InfoQ写作社区