TF-IDF 介绍与解释

TF-IDF（Term Frequency-Inverse Document Frequency）是一种统计方法，用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它常用于文本挖掘和信息检索领域。

什么是 TF-IDF？

TF-IDF 中的 "TF" 代表词频（Term Frequency），即一个词语在文档中出现的频率。而 "IDF" 代表逆文档频率（Inverse Document Frequency），表示一个词语在文档集中出现的频率越低，则其权重越大。

词频指的是一个词语在文档中出现的次数与文档总词数的比例。例如，如果文档中某个词语出现了 10 次，而文档总共有 100 个词，那么这个词语的词频就是 0.1。

逆文档频率是一个词语在整个文档集中的分布情况的度量。一个词语在文档集中出现的次数越少，其 IDF 值就越高。IDF 的计算公式为：

[ IDF = \log(\frac{N}{n}) ]

其中，N 是文档集中包含该词语的文档数，n 是包含该词语的文档数。

TF-IDF 常用于以下场景：

想要了解更多关于文本挖掘和自然语言处理的知识，可以访问我们网站的文本挖掘教程页面。