TF-IDF(Term Frequency-Inverse Document Frequency)是一种统计方法,用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它常用于文本挖掘和信息检索领域。
什么是 TF-IDF?
TF-IDF 中的 "TF" 代表词频(Term Frequency),即一个词语在文档中出现的频率。而 "IDF" 代表逆文档频率(Inverse Document Frequency),表示一个词语在文档集中出现的频率越低,则其权重越大。
词频 (TF)
词频指的是一个词语在文档中出现的次数与文档总词数的比例。例如,如果文档中某个词语出现了 10 次,而文档总共有 100 个词,那么这个词语的词频就是 0.1。
逆文档频率 (IDF)
逆文档频率是一个词语在整个文档集中的分布情况的度量。一个词语在文档集中出现的次数越少,其 IDF 值就越高。IDF 的计算公式为:
[ IDF = \log(\frac{N}{n}) ]
其中,N 是文档集中包含该词语的文档数,n 是包含该词语的文档数。
TF-IDF 的应用
TF-IDF 常用于以下场景:
- 搜索引擎:用于确定搜索结果的相关性。
- 文本分类:用于将文档分类到预定义的类别中。
- 关键词提取:用于识别文档中的关键主题。
图像示例
TF-IDF 简图
扩展阅读
想要了解更多关于文本挖掘和自然语言处理的知识,可以访问我们网站的 文本挖掘教程 页面。