半监督学习是一种结合有标签数据无标签数据的机器学习方法,常用于数据标注成本高的场景。其核心思想是通过少量标注样本与大量未标注样本共同训练模型,提升泛化能力。

核心特点📊

  • 减少标注成本:利用未标注数据扩充训练集
  • 提升模型性能:结合监督与无监督信息
  • 应用场景广泛:图像识别、自然语言处理、语音分析等

典型方法🤖

  1. 伪标签法(Pseudo-Labeling)
    用预训练模型为未标注数据生成标签,再与原始标签一起训练

    伪标签法
  2. 自训练法(Self-Training)
    通过迭代优化模型,逐步提高对未标注数据的预测准确性

    自训练法
  3. 图半监督学习(Graph-Based Semi-Supervised Learning)
    基于数据点之间的关系进行传播学习

    图半监督学习

与监督/无监督学习对比📋

类型 标签数据 优势 局限
监督学习 模型性能高 标注成本高
无监督学习 无需标注 信息利用不充分
半监督学习 平衡成本与性能 实现复杂度较高

推荐扩展阅读🔗

📌 通过合理利用未标注数据,半监督学习在实际应用中展现出独特价值,尤其适合工业级数据集场景。