使用Keras和tensorflow实现的Transformer模型.zip_keras实现transformer资源-CSDN下载

共27个文件

py：16个

png：4个

de：2个

版权申诉

毕业设计

Java源码

5星 · 超过95%的资源 30 浏览量 2023-07-02 11:37:05 上传评论 1 收藏 1.4MB ZIP 举报

Transformer模型是深度学习领域中的一种先进架构，最初在2017年的论文《Attention is All You Need》中提出。这个模型彻底改变了序列到序列（seq2seq）学习的任务处理方式，尤其是在自然语言处理（NLP）领域。它通过引入自注意力机制（self-attention）取代了传统的循环神经网络（RNNs）和卷积神经网络（CNNs），从而能够并行处理序列数据，显著提高了计算效率。在"使用 Keras 和 tensorflow 实现的Transformer模型.zip"压缩包中，你将找到一个名为"transformer-keras-master"的项目，这是用Python编程语言、Keras库和TensorFlow框架实现的Transformer模型。Keras是一个高级神经网络API，它可以在TensorFlow、Theano和CNTK等后端上运行，为快速实验和模型构建提供了便利。 Transformer模型的核心组件包括： 1. **嵌入层（Embedding Layer）**：将输入的词或字符转换成向量表示，通常通过预训练的词嵌入如GloVe或Word2Vec完成。 2. **位置编码（Positional Encoding）**：由于Transformer模型不包含循环结构，无法捕捉序列信息，所以通过添加位置编码来引入序列顺序信息。 3. **多头自注意力（Multi-Head Self-Attention）**：这是Transformer的主要创新，允许模型同时关注输入序列中的不同部分。每个头部可以捕捉不同的依赖关系，所有头部的信息再进行组合。 4. **前馈神经网络（Feed-Forward Network, FFN）**：对每个自注意力头部的输出进行进一步处理，通常由两层全连接网络组成，中间层可能应用ReLU激活函数。 5. **残差连接（Residual Connections）**和**层归一化（Layer Normalization）**：这些技术用于稳定和加速训练过程，避免梯度消失和爆炸问题。 6. **编码器和解码器堆栈（Encoder and Decoder Stacks）**：编码器负责理解输入序列，解码器则生成输出序列。解码器中还额外加入了遮罩（masking）机制，防止当前位置看到未来位置的信息。在Keras中实现Transformer模型，你需要定义上述各个组件，并将它们组合成一个完整的模型结构。这通常涉及以下步骤： 1. 定义输入层和嵌入层。 2. 编写自注意力层的实现，包括多头自注意力和位置编码。 3. 创建前馈神经网络层。 4. 组合编码器和解码器的层结构。 5. 将残差连接和层归一化整合到模型中。 6. 编译模型，设置损失函数（如交叉熵）和优化器（如Adam）。 7. 训练模型，通常使用大量的平行语料库进行监督学习。在"transformer-keras-master"项目中，你可能还会找到数据预处理、模型训练、评估和预测的相关代码。如果你的毕业设计是关于NLP任务，例如机器翻译、文本生成或者情感分析，这个实现可以作为基础模板进行修改和扩展。这个项目提供了一个很好的实践机会，让你深入理解Transformer模型的工作原理以及如何在实际应用中使用Keras和TensorFlow。通过研究和调整这个代码，你可以加深对深度学习的理解，并提升你的编程技能。

资源推荐

资源详情

资源评论

收起资源包目录

使用 Keras 和 tensorflow 实现的Transformer模型.zip （27个子文件）

transformer-keras-master

transformer_keras

__init__.py 245B

tools

__init__.py 0B

text_preprocess.py 10KB

data_loader.py 3KB

custom

__init__.py 0B

callbacks.py 9KB

core.py 23KB

setup.py 626B

assets

pos_encoding.png 122KB

accuracies.png 38KB

ppl.png 29KB

mask.png 8KB

LICENSE.txt 11KB

data

training

train.en 1.72MB

train.de 2.01MB

validation

val.de 74KB

val.en 62KB

examples

mask_test.py 898B

__init__.py 0B

decode_test.py 2KB

tokenizer_test.py 1KB

train_test.py 3KB

data_loader_test.py 787B

position_encoding_test.py 764B

data_process.py 1KB

.gitignore 84B

README.md 5KB

# transformer-keras 使用 Keras 和 tensorflow 实现的Transformer模型。 [Attention is All You Need](https://arxiv.org/abs/1706.03762)" (Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, arxiv, 2017) ## 使用以下以英德翻译任务为例： ### 数据预处理 ```sh examples/data_process.py ``` 这将会把原始分离的英语句子和德语句子进行组装，生成下面的文件： - `data/en2de.s2s.txt` - `data/en2de.s2s.valid.txt` 数据来源：WMT'16 Multimodal Translation: Multi30k (de-en) (http://www.statmt.org/wmt16/multimodal-task.html). ### 生成字典 ```sh examples/tokenizer_test.py ``` 这会生成以下的字典文件： - `data/dict_en.json` - `data/dict_de.json` **注意**：默认生成的字典过滤掉了词频数小于5的词语，你可以进行修改。 ### 训练 ```sh examples/train_test.py ``` 训练参数和配置可在文件 `train_test.py` 中找到, 默认模型配置如下： ```json { "src_vocab_size": 3321, "tgt_vocab_size": 3638, "model_dim": 512, "src_max_len": 70, "tgt_max_len": 70, "num_layers": 2, "num_heads": 8, "ffn_dim": 512, "dropout": 0.1 } ``` ### 解码/翻译你可以使用以下方式进行解码: 1. `beam_search_text_decode` 2. `decode_text_fast` 3. `decode_text` 详情见： `examples/decode_test.py`. ## 效果 ### 训练效果以下为使用SGDR作为学习率变化策略，迭代32次的训练效果图： <div> <img src="assets/ppl.png" width="49%"> <img src="assets/accuracies.png" width="49%"> </div> 可以发现迭代30次后，验证集精度达到了70%，由于数据集很小，通过缩小模型规模，应该能得到更高的精确度（如，设置model_dim=256）。 ### 解码效果 1. 直接解码`decode_text_fast` | 源句子 | 目标句子 | 解码句子 | | -------------------------------------------------------------------- | ------------------------------------------------------------------------ | ------------------------------------------------------------------- | | A brunette woman is standing on the sidewalk looking down the road . | Eine brünette Frau steht auf dem Gehweg und blickt die Straße hinunter . | eine brünette frau steht auf dem gehweg und blickt auf die straße . | | A group of three friends are conversing inside of a home . | Eine Gruppe von drei Freunden unterhält sich in einem Haus . | eine gruppe von drei freunden unterhält sich in einem haus . | | Two chinese people are standing by a chalkboard . | Zwei Chinesen stehen an einer Wandtafel . | zwei <UNK> personen stehen an einer tafel . | 2. 束搜索`beam_search_text_decode` 源句子如下： ```python "Two women wearing red and a man coming out of a port @-@ a @-@ potty ." ``` 符号`@-@`表示这是一个连接左右两词的连接符，即`port @-@ a @-@ potty`是一个词`port-a-potty`。这么做只是为了方便训练。目标句子如下： ```python "Zwei Frauen in Rot und ein Mann , der aus einer transportablen Toilette kommt ." ``` 以束宽3经束搜索后的结果如下： | sentence | score | | --------------------------------------------------------------------------------- | ----- | | zwei frauen die rot und ein mann verlassen eines <UNK> . | 0.771 | | zwei frauen , die rot und ein mann kommen , verlassen aus einem <UNK> . | 0.742 | | zwei frauen , die rot und ein mann verlassen ist , verlassen aus einem <UNK> . | 0.732 | ## 性能性能测试时模型使用的配置与默认配置相同 ### 训练时性能数据集包括 29000 个训练样例, 1014 个验证样例。 | gpu | batch_size | time (s / per epoch) | | ------ | ---------- | -------------------- | | 1070Ti | 64 | 38 | ### 解码/翻译性能 | method | topk | mean time (ms) | max time (ms) | | ----------------------- | ---- | -------------- | ------------- | | beam_search_text_decode | 5 | 210.135 | 1061.358 | | decode_text | / | 90.555 | 309.771 | | decode_text_fast | / | 56.446 | 266.988 | **注意**：最大耗时一般只发生在模型未训练时，即使用一个完全未训练的模型进行解码。 ## Bleu得分待续。。。 ## 其它 ### 掩码可视化 ```python example/mask_test.py ``` <img src="assets/mask.png" width="45%"> ### 位置编码可视化 ```python example/position_encoding_test.py ``` <img src="assets/pos_encoding.png"> ## 参考 1. [https://github.com/Lsdefine/attention-is-all-you-need-keras](https://github.com/Lsdefine/attention-is-all-you-need-keras) 2. [Transformer 模型的 PyTorch 实现](https://juejin.im/post/5b9f1af0e51d450e425eb32d) 3. [https://www.jiqizhixin.com/articles/Synced-github-implement-project-machine-translation-by-transformer](https://www.jiqizhixin.com/articles/Synced-github-implement-project-machine-translation-by-transformer) 4. [Setting the learning rate of your neural network](https://www.jeremyjordan.me/nn-learning-rate/)

评论收藏

内容反馈

版权申诉