Gensim 是一个强大的自然语言处理库,其相似度搜索功能广泛应用于文档检索、语义分析等场景。以下是核心使用方法:

  1. 安装与导入

    pip install gensim
    

    📦 通过 gensim.models.KeyedVectors 加载预训练词向量模型,例如:

    from gensim.models import KeyedVectors
    model = KeyedVectors.load_word2vec_format('path/to/model.bin', binary=True)
    
  2. 计算相似度
    🔍 使用 cosine_similaritymost_similar 方法:

    similarity = model.similarity('苹果', '香蕉')  # 两个词的相似度
    results = model.most_similar('机器学习', topn=5)  # 找最相关的词
    
  3. 应用场景

    • 文档聚类(📁)
    • 问答系统(❓)
    • 推荐算法(🔁)
    • 语义搜索优化(🔍)
  4. 注意事项
    ⚠️ 确保文本预处理(分词、去停用词)与模型训练阶段一致。
    ⚠️ 避免使用未在词汇表中的词汇,否则会触发 KeyError

📌 扩展学习
点击了解 NLP 基础知识 → /community/knowledge-base/nlp-tutorial

相似度搜索
向量空间模型
文档检索