spaCy v2.3 发布:新增 5 种语言模型与性能优化
spaCy v2.3 发布:新增 5 种语言模型与性能优化
spaCy 自然语言处理库的 2.3 版本新增了五种语言的预训练模型:中文、日语、丹麦语、波兰语和罗马尼亚语。所有 15 个模型家族均更新了词向量并提升准确率,同时减少了带向量模型的体积和加载时间。
新增语言支持
中文模型:采用 pkuseg 进行分词,默认支持 jieba,分词准确率达 94.6%
日语模型:改用 SudachiPy 实现分词和词性标注,安装仅需
pip install spacy[ja]
模型性能优化
词向量改进:大模型(lg)包含 50 万唯一向量,中模型(md)保留 2 万高频词向量
训练数据更新:基于 Universal Dependencies v2.5 语料库,标注和解析准确率提升 3-5%
体积缩减:中型模型体积减少 50%,英文大模型缩小 120MB
加载加速:带向量模型的加载速度提升 2-4 倍
技术细节
自定义训练 FastText 词向量(CBOW, 300 维,5 字符 n-grams)
移除了可推导的 lexeme 属性以减小模型体积
新增细粒度词性标签(如法语 ADP_DET 合并标签)
兼容性说明
v2.2 训练的模型需重新训练以适应新版本,可通过python -m spacy validate
检查兼容性。
配套资源更新
在线课程《Advanced NLP with spaCy》新增日语、德语和西班牙语版本
新增实体链接和规则匹配等实战教程视频
该版本是 spaCy v2 的最终主要更新,v3 版本将重点改进训练流程和配置系统,预计近期发布预览版。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码
办公AI智能小助手
评论