写点什么

tf-idf

0 人感兴趣 · 1 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/ab/aba84824c6ec9c5666b72ddf9c16fda4.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

相似度计算 - 句子

用户头像
Qien Z.
2021 年 6 月 7 日

如果单纯通过文档的向量,用count vector来计算词频,然后用矩阵来表示,其实会有很大的弊端。因为词的频率高,不代表其重要性。因此,我们还需要考虑到其权重,也就是质量,引入质量可以通过Tf-idf。

tf-idf_tf-idf技术文章_InfoQ写作社区