torchtext 是一个用于构建和训练 NLP 模型的库,它是 PyTorch 的一个扩展,提供了大量的文本预处理工具和预训练的词汇表。

特点

  • 文本预处理:包括分词、标记化、词性标注等。
  • 预训练词汇表:支持多种语言,如英文、中文等。
  • 数据加载:支持多种数据格式,如 CSV、JSON 等。

使用方法

以下是一个简单的例子,展示如何使用 torchtext 加载和处理文本数据:

from torchtext.data import Field, TabularDataset

# 定义字段
TEXT = Field(sequential=True, tokenize=str.split, lower=True)
LABEL = Field(sequential=False)

# 加载数据
train_data, test_data = TabularDataset.splits(
    path='data', format='tsv',
    fields=[('text', TEXT), ('label', LABEL)]
)

# 显示数据
print(train_data[0])

扩展阅读

更多关于 torchtext 的信息,请访问我们的官方文档

torchtext logo