torchtext 是一个用于构建和训练 NLP 模型的库,它是 PyTorch 的一个扩展,提供了大量的文本预处理工具和预训练的词汇表。
特点
- 文本预处理:包括分词、标记化、词性标注等。
- 预训练词汇表:支持多种语言,如英文、中文等。
- 数据加载:支持多种数据格式,如 CSV、JSON 等。
使用方法
以下是一个简单的例子,展示如何使用 torchtext 加载和处理文本数据:
from torchtext.data import Field, TabularDataset
# 定义字段
TEXT = Field(sequential=True, tokenize=str.split, lower=True)
LABEL = Field(sequential=False)
# 加载数据
train_data, test_data = TabularDataset.splits(
path='data', format='tsv',
fields=[('text', TEXT), ('label', LABEL)]
)
# 显示数据
print(train_data[0])
扩展阅读
更多关于 torchtext 的信息,请访问我们的官方文档。
torchtext logo