TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用于文本挖掘和信息检索的统计方法。它可以帮助我们评估一个词语对于一个文档集或一个语料库中的其中一份文档的重要程度。

TF-IDF 计算方法

  1. 词频(TF):一个词在文档中出现的频率。
  2. 逆文档频率(IDF):一个词在文档集中出现的频率的倒数。

应用场景

  • 文本分类
  • 文本聚类
  • 主题建模
  • 搜索引擎优化

示例

假设我们有一个包含两篇文档的语料库:

文档1:The quick brown fox jumps over the lazy dog.

文档2:Never jump over the lazy dog quickly.

我们可以看到,"quick" 和 "lazy" 在这两篇文档中都出现了,但它们在第一篇文档中的频率更高。因此,它们的TF-IDF值会更高。

更多信息

想要了解更多关于TF-IDF的信息,可以访问本站TF-IDF教程

TF-IDF 图解