Google推出开源模型Gemma 2:性能大幅提升与创新训练方法

引言

近日,Google推出了开源模型Gemma 2,吸引了广大研究人员和开发者的关注。相比上一代模型,Gemma 2在性能和可用性方面实现了显著提升,提供了9B和27B两个版本,并且对外开放免费使用。本文将深入探讨Gemma 2的技术细节、性能改进以及其在实际应用中的潜力。

Gemma 2简介

Gemma 2是Google最新的开放大语言模型,提供了9B参数和27B参数两个规模版本,每个版本又分别有预训练基础和指令调优两个子版本。与第一代Gemma相比,Gemma 2不仅在性能上大幅提升,而且在部署要求上大幅降低,只需一块NVIDIA H100 Tensor Core GPU或TPU主机即可运行。此外,用户还可以在Google AI Studio中使用Gemma 2,即使硬件不达标也能测试27B参数版本的全部功能。

架构与训练数据改进

局部滑动窗口注意力与全局注意力

Gemma 2在架构上进行了全方位的改良,采用了局部滑动窗口注意力和全局注意力相结合的方法。局部滑动窗口注意力是一种减少Transformer模型中注意力计算的内存和时间的方法,在Gemma 2中每隔一层应用一个4096 token的滑动窗口,而中间层则使用8192 Token的全局二次注意力。这一改进使得模型在保持长上下文长度的前提下,能够提高输出质量,即使token数量过半,模型仍有余力关注所有的Token。

软上限技术

此外,Gemma 2在最终层和每个注意力层都使用了软上限技术,这是一种防止logits过度增长的方法。通过将logits除以最大值阈值(soft_cap)&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值