写点什么

中文分词

0 人感兴趣 · 4 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/de/de774f63f029fc4db9c2b0537c1d5225.png?x-oss-process=image/resize,w_416,h_234

ES 终于可以搜到“悟空哥”了!

用户头像
悟空聊架构4 月 21 日

Elasticsearch 搜索引擎内置了很多种分词器,但是对中文分词不友好,所以我们需要借助第三方中文分词工具包。

https://static001.geekbang.org/infoq/1e/1ed86d492904239c65240a546362874e.png?x-oss-process=image/resize,w_416,h_234

ElasticSearch 如何使用 ik 进行中文分词?

用户头像
程序员历小冰4 月 11 日

在前一篇文章中,我们讲解了 ElasticSearch 如何在数据存储方面支持全文搜索和复杂条件查询,本篇文章则着重分析 ElasticSearch 在全文搜索前如何使用 ik 进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。

https://static001.geekbang.org/infoq/02/0291ebbf8e8c2b31cd9893e48e40533e.png?x-oss-process=image/resize,w_416,h_234

介绍一下自研开源 NLP 工具库 ---MYNLP

用户头像
陈吉米2020 年 5 月 27 日

万事开头难,创业之初,没资金、没资源,由于技术需要,不得不直面这些底层NLP技术研发。最初的几年里,使用了ansj开源项目,后来开始使用hanlp。随着业务的推进,不断暴露出很多问题,不能满足业务需要,如控制分词粒度、纠错等等。。。

https://static001.geekbang.org/infoq/13/13c859c8696e3743de1df89f81febbcc.png?x-oss-process=image/resize,w_416,h_234

Lucene 的 Smart CN 实现分词、停用词、扩展词

用户头像
Page2020 年 5 月 24 日

Lucene 中提供了 SmartCN 为中文提供分词功能,实际应用中还会涉及到停用词、扩展词(特殊词、专业词)等,因此本文将聚焦在 SmartCN 而暂时不考虑其他中文分词类库。

中文分词_中文分词资料文章-InfoQ写作平台