使用 Python 和 SudachiPy 进行日语分词
1. 背景
需要对一些日文进行词频统计。中、英文的词频统计的方法比较简单,网上已经有很多文章说明了,这里不再赘述。解决这个需求的主要技术点就是日语分词。
2. 调研日语分词库
在 Google 和 Github 上分别以“japanese segmentation”为关键词进行搜索,找到以下分词库:
gse #Go
Go efficient text segmentation @vcaesar; support english, chinese, japanese and other. Go 语言高性能分词
kagome #Go
Self-contained Japanese Morphological Analyzer written in pure Go
Sudachi #Java #Python
A Japanese Tokenizer for Business
Python version of Sudachi, a Japanese tokenizer.
A lexicon for Sudachi
nagisa #Python
A Japanese tokenizer based on recurrent neural networks
Kuromoji is an open source Japanese morphological analyzer written in Java.
由于 Python 运行方便,所以选用 SudachiPy 进行分词。
3. 环境准备
请确保已经安装好 Python 3.x 的环境。
3.1 安装 SudachiPy 库
遇到的问题:
x86_64-linux-gnu-gcc: error trying to exec 'cc1plus': execvp: No such file or directory
解决方法的参考链接:
g++: error trying to exec 'cc1plus': execvp: No such file or directory
解决方法:
3.2 安装词典
出现的问题:网络不佳,无法完成下载。
解决方法:使用下载工具自行下载后直接安装本地文件。
4. 编码实现
SudachiPy 的使用方法直接参考官方示例即可。
我使用的是 SplitMode.B 模式。
版权声明: 本文为 InfoQ 作者【Roc】的原创文章。
原文链接:【http://xie.infoq.cn/article/2ab0b7be89d34bcb9e4840c16】。
本文遵守【CC BY-SA】协议,转载请保留原文出处及本版权声明。
评论