基于Microsoft LoRA项目的自然语言处理分词器训练指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00922/article/details/148393300

基于Microsoft LoRA项目的自然语言处理分词器训练指南

前言：理解分词在NLP中的重要性

在自然语言处理(NLP)领域，分词(Tokenization)是将原始文本转换为模型可理解表示形式的关键预处理步骤。本文将详细介绍如何使用现代分词技术为Microsoft LoRA项目构建高效的分词器。

传统分词方法的局限性

最简单的分词方法是通过空格分割文本并分配标识符：

s = "very long corpus..."
words = s.split(" ")  # 按空格分割
vocabulary = dict(enumerate(set(words)))  # 创建词到ID的映射

这种方法存在两个主要问题：

词汇表会随着语料库增长而无限扩大
无法处理词形变化（如"cat"和"cats"被视为完全不同的词）

现代分词技术：子词(Subword)分词

子词分词通过将单词分解为更小的有意义的子单元来解决上述问题。例如：

"cats" → ["cat", "##s"]
"running" → ["run", "##ning"]

这种方法显著减少了词汇表大小，同时保持了语义相关性。目前主流的分词算法包括：

字节对编码(BPE)：通过统计高频字符对迭代合并
WordPiece：基于概率模型合并子词
Unigram语言模型：使用概率模型选择最优分词
SentencePiece：语言无关的子词分词器

使用tokenizers库构建高效分词器

我们将使用专门为高效分词设计的tokenizers库，它具有以下优势：

多核并行处理能力
内存高效设计
支持Python等多种语言绑定

分词器组件架构

一个完整的分词器包含多个可配置组件：

Normalizer：执行文本规范化（如小写转换、Unicode标准化）
PreTokenizer：初始分割策略（如按空格、字节级别）
Model：核心分词模型（BPE/WordPiece等）
Post-Processor：后处理（如添加[CLS]/[SEP]标记）
Decoder：将标记转换回原始文本
Trainer：训练接口

实战：构建BPE分词器

1. 准备训练数据

我们使用一个约13万行的英文文本作为训练语料：

from requests import get

BIG_FILE_URL = 'https://raw.githubusercontent.com/dscape/spell/master/test/resources/big.txt'

with open('big.txt', 'wb') as f:
    response = get(BIG_FILE_URL)
    if response.status_code == 200:
        f.write(response.content)

2. 配置分词器管道

from tokenizers import Tokenizer
from tokenizers.decoders import ByteLevel as ByteLevelDecoder
from tokenizers.models import BPE
from tokenizers.normalizers import Lowercase, NFKC, Sequence
from tokenizers.pre_tokenizers import ByteLevel

# 初始化BPE模型
tokenizer = Tokenizer(BPE())

# 配置规范化器（Unicode标准化+小写转换）
tokenizer.normalizer = Sequence([NFKC(), Lowercase()])

# 使用字节级预分词器
tokenizer.pre_tokenizer = ByteLevel()

# 添加解码器
tokenizer.decoder = ByteLevelDecoder()

3. 训练分词器

from tokenizers.trainers import BpeTrainer

trainer = BpeTrainer(
    vocab_size=25000,  # 词汇表大小
    show_progress=True,
    initial_alphabet=ByteLevel.alphabet()
)

tokenizer.train(files=["big.txt"], trainer=trainer)
print(f"训练后的词汇表大小: {tokenizer.get_vocab_size()}")

4. 保存和加载模型

# 保存模型
tokenizer.model.save('.')

# 加载模型
tokenizer.model = BPE('vocab.json', 'merges.txt')

5. 使用分词器

encoding = tokenizer.encode("This is a simple input to be tokenized")
print(f"编码后的标记: {encoding.tokens}")

decoded = tokenizer.decode(encoding.ids)
print(f"解码后的文本: {decoded}")