TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于衡量一个词对于一个文档集或一个语料库中的其中一份文档的重要性的统计方法。它常被用于文本挖掘和信息检索中。

什么是 TF-IDF?

  • TF(Term Frequency):词频,表示一个词在文档中出现的频率。
  • IDF(Inverse Document Frequency):逆文档频率,表示一个词在整个文档集中出现的频率。

简单来说,TF-IDF 是词频和逆文档频率的乘积,用于衡量一个词对于文档的重要程度。

如何计算 TF-IDF?

  1. 计算词频(TF):统计每个词在文档中出现的次数。
  2. 计算逆文档频率(IDF):统计每个词在整个文档集中出现的频率,并取其倒数。
  3. 计算 TF-IDF:将词频和逆文档频率相乘。

TF-IDF 的应用

  • 信息检索:用于搜索结果排序,提高搜索的相关性。
  • 文本分类:用于判断文本的类别。
  • 主题建模:用于发现文本中的主题。

TF-IDF 图解

扩展阅读

想要了解更多关于 TF-IDF 的内容,可以阅读本站的《TF-IDF 深入解析》