使用 Python 和 SudachiPy 进行日语分词

用户头像
Roc
关注
发布于: 2020 年 05 月 27 日
使用 Python 和 SudachiPy 进行日语分词

1. 背景

需要对一些日文进行词频统计。中、英文的词频统计的方法比较简单,网上已经有很多文章说明了,这里不再赘述。解决这个需求的主要技术点就是日语分词。

2. 调研日语分词库



在 Google 和 Github 上分别以“japanese segmentation”为关键词进行搜索,找到以下分词库:



Go efficient text segmentation @vcaesar; support english, chinese, japanese and other. Go 语言高性能分词



Self-contained Japanese Morphological Analyzer written in pure Go



A Japanese Tokenizer for Business



Python version of Sudachi, a Japanese tokenizer.



A lexicon for Sudachi



A Japanese tokenizer based on recurrent neural networks



Kuromoji is an open source Japanese morphological analyzer written in Java.



由于 Python 运行方便,所以选用 SudachiPy 进行分词。

3. 环境准备

请确保已经安装好 Python 3.x 的环境。

3.1 安装 SudachiPy 库

python3 -m pip install SudachiPy



遇到的问题:

x86_64-linux-gnu-gcc: error trying to exec 'cc1plus': execvp: No such file or directory



解决方法的参考链接:

g++: error trying to exec 'cc1plus': execvp: No such file or directory



解决方法:

sudo apt-get install g++
python3 -m pip install https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/SudachiDict_core-20191224.tar.gz



3.2 安装词典



python3 -m pip install https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/SudachiDict_core-20191224.tar.gz



出现的问题:网络不佳,无法完成下载。



解决方法:使用下载工具自行下载后直接安装本地文件。

python3 -m pip install ./SudachiDict_core-20191224.tar.gz.tar



4. 编码实现



SudachiPy 的使用方法直接参考官方示例即可。



我使用的是 SplitMode.B 模式。

from sudachipy import tokenizer
from sudachipy import dictionary
tokenizer_obj = dictionary.Dictionary().create()
mode = tokenizer.Tokenizer.SplitMode.B
list = [m.surface() for m in tokenizer_obj.tokenize("国家公務員", mode)]
print(list)
# => ['国家', '公務員']



发布于: 2020 年 05 月 27 日 阅读数: 66
用户头像

Roc

关注

还未添加个人签名 2018.10.17 加入

还未添加个人简介

评论

发布
暂无评论
使用 Python 和 SudachiPy 进行日语分词