【机器学习】基于顺序到顺序Transformer机器翻译

引言

1.1 序列到序列模型详解

序列到序列(Seq2Seq)模型是深度学习中处理序列数据转换问题的关键架构。在自然语言处理(NLP)任务中，如机器翻译、文本摘要和聊天机器人等，Seq2Seq模型能够高效地将输入序列转换为期望的输出序列。

模型架构：
- 编码器：作为模型的第一部分，负责读取并编码输入序列，生成一个包含输入信息的上下文向量。
- 解码器：基于编码器提供的上下文向量，逐步生成输出序列，初始状态通常设置为编码器的最终状态。
工作流程：
- 编码器通过时间步逐步处理输入序列，更新内部状态，最终产生上下文向量。
- 解码器利用上下文向量和自身的状态，预测并生成输出序列的每个元素。
应用实例：
- 在机器翻译中，Seq2Seq模型能够将一种语言的文本转换为另一种语言。
- 文本摘要任务中，模型从长篇文章中提取关键信息，生成简短摘要。
- 聊天机器人通过理解用户输入并生成流畅的对话回复。
特性优势：
- 灵活性：能够处理不同长度的输入和输出序列。
- 上下文依赖性：有效捕获输入序列中的长期依赖关系，对处理复杂语言结构至关重要。
技术扩展：
- 注意力机制：提高模型性能，使解码器在生成时能够关注输入序列的相关部分。
- 双向编码器：通过同时从两个方向读取输入序列，增强模型对信息的捕捉能力。

1.2 Transformer架构深度解析

Transformer模型，自2017年提出以来，已成为NLP领域的革命性技术，特别是在处理序列数据方面展现出卓越的性能。

架构组成：
- 编码器：由多个层组成，每层包括自注意力层和前馈网络，专注于捕捉序列内部的依赖关系。
- 解码器：同样由多层构成，增加了Encoder-Decoder注意力层，以关注输入序列中与当前输出最相关的部分。
自注意力机制：
- 核心特性，允许模型在处理每个序列元素时，考虑整个序列，从而捕捉长距离依赖。
优点：
- 高效性：并行处理能力，尤其在处理大规模数据集时，Transformer模型展现出显著的效率。
- 上下文感知：通过自注意力机制，模型能够更好地理解和处理语言的上下文信息。
- 预训练与微调：大规模预训练可以捕捉丰富的语言模式，微调则使模型适应特定任务。
局限性：
- 资源需求：对数据量和计算资源的高需求可能限制了模型的普及和应用。
- 解释性：模型的复杂性导致其决策过程难以解释。
- 长序列处理：尽管自注意力有助于捕捉长距离依赖，但在极长序列上仍面临挑战。

1.3 机器翻译的现代视角

机器翻译作为NLP的重要组成部分，正随着技术的发展而不断进化。

1.3.1 工作原理深化

数据预处理：对平行语料进行清洗、分词、标注，为模型训练提供高质量的输入。
模型训练：利用大量双语数据训练模型，通过优化算法调整参数，最小化预测误差。
解码与生成：模型将源语言文本转换为目标语言文本，通过评分机制选择最佳翻译。

1.3.2 应用场景扩展

实时翻译服务：提供即时的跨语言交流能力，如旅行助手、国际会议等。
跨语言内容创作：帮助内容创作者触及更广泛的受众。
语言教育：辅助语言学习者理解不同语言的表达方式。

1.3.3 挑战与未来趋势

深层语义理解：提高模型对语言深层含义的把握，以生成更自然、准确的翻译。
领域适应性：开发能够快速适应特定领域术语和表达方式的模型。
实时翻译技术：优化模型以满足实时翻译的高速度和高准确性要求。

未来，随着深度学习技术的不断进步，机器翻译的准确性和效率将得到显著提升。同时，跨语言理解、多模态翻译等新兴领域将推动机器翻译向更深层次的智能化发展。

2.机器翻译实例

2.1.实例的主要内容

在这个例子中，我们将构建一个序列到序列（seq2seq）的Transformer模型，用于执行英语到西班牙语的机器翻译任务。

您将掌握以下技能：

使用Keras的TextVectorization层将文本数据转换为向量表示。
设计和实现TransformerEncoder层、TransformerDecoder层以及PositionalEmbedding层。
准备用于训练seq2seq模型的数据集。
应用训练好的模型进行序列到序列的推理，生成未见过的输入句子的翻译。

这里提供的代码基于《Python深度学习》第二版（第11章：文本深度学习）的示例，但做了适当的简化和调整。如果您想深入了解每个组件的工作原理以及Transformer的理论基础，我建议您阅读该书的相关章节。

2.2. 设置

# 设置后端为TensorFlow。此代码可以与'tensorflow'和'torch'一起工作。
# 它不适用于JAX，因为在`TransformerDecoder.get_causal_attention_mask()`中
# 使用的`jax.numpy.tile`在jit作用域下的行为问题：
# JAX中的`tile`不支持动态的`reps`参数。
# 您可以通过在`get_causal_attention_mask`方法内部使用装饰器来避免jit编译，
# 使代码在JAX上工作：`with jax.ensure_compile_time_eval():`。
import os

# 设置环境变量以使用TensorFlow作为Keras的后端
os.environ["KERAS_BACKEND"] = "tensorflow"

# 导入所需的库
import pathlib  # 用于路径操作
import random  # 用于生成随机数
import string  # 包含字符串常量
import re  # 正则表达式库
import numpy as np  # 科学计算库

# 导入TensorFlow的数据API
import tensorflow.data as tf_data
# 导入TensorFlow的字符串操作API
import tensorflow.strings as tf_strings

# 导入Keras库
import keras
# 从keras库中导入layers模块，用于构建神经网络层
from keras import layers
# 从keras库中导入ops模块，包含操作函数
from keras import ops
# 从keras.layers中导入TextVectorization，用于文本数据的向量化处理
from keras.layers import TextVectorization

2.3.数据预处理

2.3.1.下载数据

以下代码是使用Keras提供的get_file函数来下载并解压一个名为"spa-eng.zip"的文件，其中包含西班牙语到英语的机器翻译数据集。

from keras.utils import get_file
import pathlib

# 使用Keras的get_file函数下载文件
# fname: 要下载的文件名
# origin: 文件的原始URL
# extract: 是否解压文件
text_file_zip = keras.utils.get_file(
    fname="spa-eng.zip",
    origin="http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip",
    extract=True,  # 设置为True以自动解压下载的文件
)

# 使用pathlib.Path转换下载文件的路径，并获取解压后的spa.txt文件路径
# parent: 获取父目录路径
# "spa-eng" / "spa.txt": 指定子目录和文件名
text_file = pathlib.Path(text_file_zip).parent / "spa-eng" / "spa.txt"

# 打印spa.txt文件的完整路径
print(f"spa.txt 文件路径: {
     text_file}")

2.3.2.数据解析

每行数据都包含一个英文句子（作为源序列）及其对应的西班牙语译文（作为目标序列）。为了标识句子的开始和结束，我们在西班牙语句子的开头添加"[start]“标记，并在结尾添加”[end]"标记。

# 打开spa.txt文件进行读取
with open(text_file, 'r', encoding='utf-8') as f:  # 指定编码为'utf-8'，防止编码错误
    # 读取所有行，以换行符分割，去除最后一个空元素
    lines = f.read().split("\n")[:-1]

# 初始化一个列表来存储文本对
text_pairs = []

# 遍历每一行
for line in lines:
    # 使用制表符分割英文和西班牙语文本
    eng, spa = line.split("\t")
    # 对西班牙语文本进行格式化，添加开始和结束标记
    spa = "[start] " + spa + " [end]"
    # 将处理后的文本对添加到列表中
    text_pairs.append((eng, spa))

# 随机打印5个文本对样本
for _ in range(5):
    # 使用random.choice随机选择一个文本对
    print(random.choice(text_pairs))

这段代码的功能主要包括以下几个步骤：

文件读取：使用open函数打开一个文本文件（text_file），这个文件是通过之前下载和解压得到的。
数据分割：读取文件的全部内容，以换行符\n分割成行，存储到lines列表中。[:-1]用于去除最后一个空元素，这通常发生在文件最后一行后没有换行符的情况下。
文本对准备：初始化一个空列表text_pairs，用于存储处理后的文本对。
数据解析与处理：
- 遍历lines列表中的每一行。
- 使用split("\t")以制表符为分隔符将每行分割成英文和西班牙语文本。
- 对西班牙语文本添加特定的标记"[start] "和" [end]"，这通常用于机器翻译任务中的序列开始和结束标记。
文本对存储：将处理好的英文和西班牙语文本对添加到text_pairs列表中。
随机样本打印：从text_pairs列表中随机选择并打印5个文本对样本。这是为了展示数据的一个随机抽样，以便于观察数据格式和内容。

总结来说，这段代码的目的是从一个文本文件中提取并格式化数据，然后展示这些数据的一个随机样本。这在机器学习和自然语言处理任务中是一个常见的数据预处理步骤，特别是在准备机器翻译模型的训练数据时。
打印的内容如下：

("On Saturday nights, it's difficult to find parking around here.", '[start] Los sábados por la noche es difícil encontrar aparcamiento por aquí. [end]')
('I was the worst student in the class.', '[start] Fui el peor estudiante en la clase. [end]')
('There is nothing to do today.', '[start] No hay nada que hacer hoy. [end]')
('The twins do resemble each other.', '[start] Los gemelos se parecen mutuamente. [end]')
('They found Tom in the crowd.', '[start] Encontraron a Tom entre la multitud. [end]')

2.3.3.划分数据集

我们将句子数据集分割为训练集、验证集和测试集。

import random

# 对文本对列表进行随机打乱，以确保数据的随机性
random.shuffle(text_pairs)

# 计算验证集样本数量，设置为总样本数量的15%
num_val_samples = int(0.15 * len(text_pairs))

# 计算训练集样本数量，总样本减去两倍的验证集样本数量
# （因为测试集和验证集数量相等）
num_train_samples = len(text_pairs) - 2 * num_val_samples

# 根据计算的样本数量，划分训练集
train_pairs = text_pairs[:num_train_samples]

# 划分验证集，从训练集之后开始，长度为验证集样本数量
val_pairs = text_pairs[num_train_samples : num_train_samples + num_val_samples]

# 剩余的部分作为测试集
test_pairs = text_pairs[num_train_samples + num_val_samples:]

# 打印总的文本对数量
print(f"{
     len(text_pairs)} 总文本对数")

# 打印训练集的文本对数量
print(f"