Gensim 是一个强大的自然语言处理库,其相似度搜索功能广泛应用于文档检索、语义分析等场景。以下是核心使用方法:
安装与导入
pip install gensim
📦 通过
gensim.models.KeyedVectors
加载预训练词向量模型,例如:from gensim.models import KeyedVectors model = KeyedVectors.load_word2vec_format('path/to/model.bin', binary=True)
计算相似度
🔍 使用cosine_similarity
或most_similar
方法:similarity = model.similarity('苹果', '香蕉') # 两个词的相似度 results = model.most_similar('机器学习', topn=5) # 找最相关的词
应用场景
- 文档聚类(📁)
- 问答系统(❓)
- 推荐算法(🔁)
- 语义搜索优化(🔍)
注意事项
⚠️ 确保文本预处理(分词、去停用词)与模型训练阶段一致。
⚠️ 避免使用未在词汇表中的词汇,否则会触发KeyError
。
📌 扩展学习
点击了解 NLP 基础知识 → /community/knowledge-base/nlp-tutorial