研读论文《Attention Is All You Need》(15)

原文 40

6.2 Model Variations

To evaluate the importance of different components of the Transformer, we varied our base model in different ways, measuring the change in performance on English-to-German translation on the development set, newstest2013. We used beam search as described in the previous section, but no checkpoint averaging. We present these results in Table 3.

Table 3: Variations on the Transformer architecture. Unlisted values are identical to those of the base model. All metrics are on the English-to-German translation development set, newstest2013. Listed perplexities are per-wordpiece, according to our byte-pair encoding, and should not be compared to per-word perplexities.

在这里插入图片描述

image-20250616140435530

翻译

6.2 模型变体分析

为评估转换器不同组件的重要性,我们采用不同方式对基础模型进行变异,并在英德翻译开发集newstest2013上测量性能变化。如前一节所述,我们使用了集束搜索,但未采用检查点平均策略。相关结果呈现在表3中。

表3:Transformer架构的变体。未列出的值与基础模型相同。所有指标均基于英德翻译开发集 newstest2013。所列出的困惑度(perplexities)是按照我们的字节对编码(byte-pair encoding)计算的每个词片段(wordpiece)的困惑度,不应将其与每个完整词(per-word)的困惑度进行比较。

在这里插入图片描述

重点句子解析

  1. To evaluate the importance of different components of the Transformer, we varied our base model in different ways, measuring the change in performance on English-to-German translation on the development set, newstest2013.

【解析】

句子的结构是:不定式+主体+分词短语。句首的不定式To evaluate the importance…做目的状语,后边的两个介词短语都是后置定语。这种带有嵌套式后置定语的结构可以简化为A of B of C,翻译为“C的B的A”。we varied our base model in different ways是句子的主体,其结构为:主语(we)+谓语(varied)+宾语(our base mode)+方式状语(in different ways)。现在分词短语measuring the change…做伴随状语,表示measuring这一动作是和主要谓语动作(varied)同时发生或伴随发生的动作。(in performance) (on English-to-German translation) (on the development set, newstest2013)是由三个介词短语构成的嵌套式后置定语,其中in performance是后置定语,修饰the change;on English-to-German translation做后置定语,修饰performance;on the development set, newstest2013也是做后置定语,修饰English-to-German translation。

【参考翻译】

为评估转化器不同组件的重要性,我们采用不同方式对基础模型进行变异,并测量模型在newstest2013开发集的英德翻译任务上的性能变化

原文 41

In Table 3 rows (A), we vary the number of attention heads and the attention key and value dimensions, keeping the amount of computation constant, as described in Section 3.2.2. While single-head attention is 0.9 BLEU worse than the best setting, quality also drops off with too many heads.

翻译

在表3的(A)行中,我们按照第3.2.2节所述的方法,在保持计算量不变的情况下,对注意力头的数量以及注意力键和值的维度进行调整。实验表明:虽然单头注意力机制比最佳设置的BLEU值低0.9,但注意力头过多时质量也会下降。

重点句子解析

  1. In Table 3 rows (A), we vary the number of attention heads and the attention key and value dimensions, keeping the amount of computation constant, as described in Section 3.2.2.

【解析】

句子的整体结构分为四部分:介词短语+主体+现在分词短语+省略的方式状语从句。

第一部分的介词短语In Table 3 rows (A)做地点状语。

第二部分是句子的主体。为了把第二部分化繁为简,我们可以把the number of attention heads看作A,把the attention key and value dimensions看作B,从而得出:we vary A and B(我们改变A和B,或:我们对A和B进行调整)。其中,A的中心词是the number,B的中心词是dimensions,其余都是修饰成分。

第三部分的keeping …constant是现在分词短语做伴随状语。也就是说:分词短语(keeping…)所表示的动作与主要谓语动作(vary)同时发生或伴随发生。其中,the amount of computation (计算量) 做keeping的宾语;形容词constant(不变的,恒定的)修饰宾语,做宾语补足语(简称“宾补”)。

第四部分as described in Section 3.2.2是方式状语从句。完整的从句应该是:as it is described in Section 3.2.2. 可以理解为:正如第3.2.2节所描述的那样,或者:按照第3.2.2节所述的方法。

【参考翻译】

在表3的(A)行中,我们按照第3.2.2节所述的方法,在保持计算量不变的情况下,对注意力头的数量以及注意力键和值的维度进行调整。

原文 42

In Table 3 rows (B), we observe that reducing the attention key size dk hurts model quality. This suggests that determining compatibility is not easy and that a more sophisticated compatibility function than dot product may be beneficial. We further observe in rows © and (D) that, as expected, bigger models are better, and dropout is very helpful in avoiding over-fitting. In row (E) we replace our sinusoidal positional encoding with learned positional embeddings [9], and observe nearly identical results to the base model.

翻译

在表3的(B)行中,我们观察到减小注意力键的大小(dk)会降低模型质量。这表明确定兼容性并非易事,且相较于点积运算,更复杂的兼容性函数可能更具优势。在©和(D)行中我们进一步观察到:正如预期的那样,更大的模型表现更优,而丢弃操作技术能有效防止过拟合。在(E)行中,我们将正弦位置编码替换为习得的位置嵌入[9],发现其结果与基础模型几乎完全一致。

资源下载链接为: https://pan.quark.cn/s/d3128e15f681 罗技MX Master 2S是一款高端无线鼠标,凭借其卓越的性能和舒适性,深受专业设计师、程序员以及需要长时间使用鼠标的人群的喜爱。它在macOS平台上表现出色,功能丰富。而“LogiMgr Installer 8.20.233.zip”是该鼠标在macOS系统上对应的软件安装程序,版本号为8.20.233,主要功能如下: 驱动安装:该安装包可确保MX Master 2S在macOS系统中被正确识别和配置,发挥出最佳硬件性能,同时保证良好的兼容性。它会安装必要的驱动程序,从而启用鼠标的高级功能。 自定义设置:借助此软件,用户能够根据自己的工作习惯,对MX Master 2S的各个按钮和滚轮功能进行自定义。比如设置特定快捷键、调整滚动速度和方向等,以满足个性化需求。 Flow功能:罗技Flow是一项创新技术,允许用户在多台设备间无缝切换。只需在软件中完成设备配置,鼠标就能在不同电脑之间进行复制、粘贴操作,从而大幅提升工作效率。 电池管理:软件具备电池状态监控功能,可帮助用户实时了解MX Master 2S的电量情况,并及时提醒用户充电,避免因电量不足而影响工作。 手势控制:MX Master 2S配备独特的侧边滚轮和拇指按钮,用户可通过软件定义这些手势,实现诸如浏览页面、切换应用等操作,进一步提升使用便捷性。 兼容性优化:罗技的软件会定期更新,以适应macOS系统的最新变化,确保软件与操作系统始终保持良好的兼容性,保障鼠标在不同系统版本下都能稳定运行。 设备配对:对于拥有多个罗技设备的用户,该软件能够方便地管理和配对这些设备,实现快速切换,满足多设备使用场景下的需求。 在安装“LogiMgr Installer 8.20.233.app”时,用户需确保macOS系统满足软件的最低要求,并
资源下载链接为: https://pan.quark.cn/s/27e1210fbf58 《RT-Thread在STM32F103C8T6上的移植实战指南》 RT-Thread是一款开源、轻量级且高可扩展性的实时操作系统(RTOS),广泛应用于物联网、工业控制和消费电子等领域。STM32F103C8T6作为一款基于ARM Cortex-M3内核的微控制器,凭借其丰富的外设资源和高性价比,成为嵌入式系统学习与开发的理想平台。本文将详细介绍如何将RT-Thread移植到STM32F103C8T6,并逐步添加rt_printf支持和Finsh组件,以实现调试与交互功能。 一、移植准备 移植RT-Thread到STM32F103C8T6的第一步是下载RT-Thread Nano的源码,具体操作方法在2.下载RT-Thread Nano源码中详细说明。RT-Thread Nano是RT-Thread的精简版,专为资源受限的嵌入式设备设计。 二、整合源码 将下载的RT-Thread Nano源码复制到STM32的裸机工程中,相关步骤在3.拷贝RT-Thread Nano源码到裸机工程中介绍。需确保源码结构与工程匹配,以便后续编译和配置。 三、调整工程目录结构 为适应STM32开发环境,需对工程目录结构进行调整。5.修改工程目录结构中详细说明了如何组织和调整文件,确保编译器正确识别和处理所有源文件。 四、删除未使用的文件 为优化内存占用,需删除RT-Thread中不必要的文件。4.删除RT-Thread中不必要的文件中列出了可安全移除的文件清单。 五、编译与错误修复 完成目录结构调整和冗余文件删除后,开始编译工程。在6.编译工程并修复错误中,将逐一解决编译过程中的错误和警告,确保代码无误。 六、配置Board.c文件 8.修改board.c文件涉及针对STM32F103C8T6硬件特性的
资源下载链接为: https://pan.quark.cn/s/d3128e15f681 《支付宝私域运营白皮书(2021)》深入剖析了支付宝在数字化生活服务领域的发展态势以及商家如何借助支付宝平台开展私域运营的策略与实践。以下是其核心要点: 支付宝生态演变:支付宝不再局限于支付功能,而是发展为一个涵盖生活缴费、社保公积金、出行、医疗健康等众多领域的开放型数字生活服务平台,成为消费者获取线上线下服务的关键入口。目前,用户可在支付宝上办理超1000项服务。 消费者行为分析:支付宝用户的搜索行为多集中于打车、点餐、快递、租车等高频服务,线下扫码服务(如骑车、点餐、购物等)的用户心智也日益成熟。餐饮、快消零售、家政服务、酒店旅游等行业商家在支付宝上的布局尤为活跃。 支付宝小程序分布:餐饮行业的小程序数量占比最高,快消零售、家政服务和酒店旅游紧随其后。这些行业的商家在支付宝的交易量也较为可观,如餐饮、缴费还款、交通出行、教育、共享租赁等领域。 私域运营路径:支付宝构建了一套完整的私域运营链路,涵盖公域获客(如搜索、首页推荐、营销会场)、用户留存(如“生活号+”关注、小程序收藏)、复访与召回(如消息订阅、会员频道)、用户分析(如访问分析、留存分析、分析营销)等环节。商家可通过线下物料引导、支付成功页推广、城市区域投放等方式与用户建立连接。 会员运营策略:商家可在支付宝平台上运营会员,通过消息触达、内容营销等手段提升用户粘性,促进复购。卡包功能、会员频道、支付后营销等结合优惠券策略,可有效实现用户留存与召回。 案例分享:白皮书中可能包含多个商家案例,展示其在支付宝私域运营中的成功实践,如如何运用“生活号+”营销、优惠券策略和会员管理等。 运营规范与指南:白皮书为商家提供了在支付宝平台开展私域运营的规则和操作指南,助力商家合规且高效地开展营销活动。 白皮书为商家提供了全面的策略指导,帮助
### 关于Seq2Seq模型的学术论文 Seq2Seq(Sequence-to-Sequence)模型是一种用于处理序列数据的强大架构,广泛应用于自然语言处理领域中的各种任务,如机器翻译、文本摘要生成等。这类模型通常由编码器和解码器两部分组成,能够有效地捕捉输入序列与输出序列之间的依赖关系。 #### Seq2Seq模型的经典文献 一篇经典的Seq2Seq模型介绍文章是由Sutskever等人提出的神经网络翻译方法[^1]。在这篇文章中,作者们首次引入了基于循环神经网络(RNN)构建的编码器-解码器框架来解决机器翻译问题,并展示了这种方法相较于传统统计方法的优势所在。 随着技术的发展,后续的研究者不断对该结构进行了优化改进: - **注意力机制的应用**:Bahdanau et al. 提出了加入Attention Mechanism 的变体形式,使得模型可以更加聚焦于源端的重要位置从而提高性能表现。 - **Transformer 架构革新**:Vaswani et al. 发布了名为《Attention Is All You Need》的工作,在这篇论文里彻底摒弃掉了RNN/CNN组件而完全依靠自注意层搭建起了全新的Encoder-Decoder体系——即著名的Transformers,这标志着NLP进入了新时代。 对于希望深入了解Seq2Seq及其衍生版本的朋友来说,上述提及的一些开创性和里程碑式的成果是非常值得研读的对象。 ```python import torch.nn as nn class Encoder(nn.Module): def __init__(self, input_dim, emb_dim, hid_dim, n_layers, dropout): super().__init__() self.hid_dim = hid_dim self.embedding = nn.Embedding(input_dim, emb_dim) self.rnn = nn.LSTM(emb_dim, hid_dim, num_layers=n_layers, bidirectional=True, dropout=dropout) def forward(self, src): embedded = self.dropout(self.embedding(src)) outputs, (hidden, cell) = self.rnn(embedded) return hidden, cell class Decoder(nn.Module): def __init__(self, output_dim, emb_dim, hid_dim, n_layers, dropout): super().__init__() self.output_dim = output_dim self.hid_dim = hid_dim * 2 self.embedding = nn.Embedding(output_dim, emb_dim) self.rnn = nn.LSTM(emb_dim + hid_dim*2 , hid_dim*2, num_layers=n_layers, dropout=dropout) self.fc_out = nn.Linear(hid_dim * 2, output_dim) def forward(self, trg_token, hidden, context_vector): ... ``` 此代码片段展示了一个简单的双向LSTM作为编码器以及带有上下文向量连接方式的标准解码器实现方案的一部分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CS创新实验室

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值