TorchText 是 PyTorch 的一个库,专门用于处理文本数据。它提供了多种工具和数据集,帮助开发者更高效地完成自然语言处理任务。以下是几个常见的使用场景和示例代码:

1. 文本分类 📝

import torch
from torchtext.datasets import AG_NEWS
from torchtext.data.utils import get_tokenizer

tokenizer = get_tokenizer('basic_english')
train_iter = AG_NEWS(split='train')

for i in range(5):
    text, label = next(iter(train_iter))
    print(f"文本: {text} | 标签: {label}")
    <center><img src="https://cloud-image.ullrai.com/q/文本分类/" alt="文本分类"/></center>

2. 情感分析 😊

from torchtext.datasets import SST2
from torchtext.data.utils import ngrams_range

train_iter = SST2(split='train')
for text, label in train_iter:
    print(f"评论: {text} | 情感: {label}")
    <center><img src="https://cloud-image.ullrai.com/q/情感分析/" alt="情感分析"/></center>

3. 数据加载与预处理 📦

from torchtext.data.utils import get_lang_ids

# 加载数据
data = torchtext.datasets.IMDB(root='./data', split='train')
# 预处理文本
processed_data = [get_lang_ids(text) for text, label in data]

扩展学习 🌐

⚠️ 注意:所有示例均基于 PyTorch 2.0+ 版本,建议先安装依赖再运行代码

PyTorch Logo