TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于评估一个词语对于一个文本集中一个文档的重要性的统计方法。在自然语言处理和文本挖掘中,TF-IDF 是一个常用的算法,用于信息检索和文本分类。
TF-IDF 的基本原理
- 词频(TF):一个词语在文档中出现的频率。
- 逆文档频率(IDF):一个词语在整个文档集中出现的频率的倒数。
TF-IDF 的计算公式:
[ TF-IDF = TF \times IDF ]
其中:
- TF(t,d) = \frac{tf(t,d)}{max(tf(t,d))}
- tf(t,d) 是词语 t 在文档 d 中的词频。
- max(tf(t,d)) 是文档 d 中所有词语的词频的最大值。
- IDF(t) = \frac{log(N)}{df(t)}
- N 是文档集中文档的总数。
- df(t) 是文档集中包含词语 t 的文档数。
TF-IDF 的应用
TF-IDF 可以用于以下场景:
- 信息检索:帮助搜索引擎找到与查询最相关的文档。
- 文本分类:将文本分类到预定义的类别中。
- 关键词提取:从文档中提取出最重要的词语。
相关资源
想要了解更多关于 TF-IDF 的信息,可以参考以下资源:
TF-IDF 图解