TorchText 是 PyTorch 的一个库,专门用于处理文本数据。它提供了多种工具和数据集,帮助开发者更高效地完成自然语言处理任务。以下是几个常见的使用场景和示例代码:
1. 文本分类 📝
import torch
from torchtext.datasets import AG_NEWS
from torchtext.data.utils import get_tokenizer
tokenizer = get_tokenizer('basic_english')
train_iter = AG_NEWS(split='train')
for i in range(5):
text, label = next(iter(train_iter))
print(f"文本: {text} | 标签: {label}")
<center><img src="https://cloud-image.ullrai.com/q/文本分类/" alt="文本分类"/></center>
2. 情感分析 😊
from torchtext.datasets import SST2
from torchtext.data.utils import ngrams_range
train_iter = SST2(split='train')
for text, label in train_iter:
print(f"评论: {text} | 情感: {label}")
<center><img src="https://cloud-image.ullrai.com/q/情感分析/" alt="情感分析"/></center>
3. 数据加载与预处理 📦
from torchtext.data.utils import get_lang_ids
# 加载数据
data = torchtext.datasets.IMDB(root='./data', split='train')
# 预处理文本
processed_data = [get_lang_ids(text) for text, label in data]
扩展学习 🌐
- TorchText 入门指南:了解基础概念与安装方法
- 文本处理进阶教程:探索更复杂的文本分析技术
- 数据集详情:查看可用的文本数据集列表
⚠️ 注意:所有示例均基于 PyTorch 2.0+ 版本,建议先安装依赖再运行代码

PyTorch Logo