T5模型: Transfer Text-to-Text Transformer（谷歌）

#苦行僧

已于 2023-08-01 10:39:31 修改

阅读量2.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： NLP 算法岗面试必学知识文章标签： T5 transformer Google 大模型人工智能深度学习

于 2023-07-18 20:54:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43646592/article/details/131796002

算法岗面试必学知识同时被 2 个专栏收录

55 篇文章 ¥99.90 ¥299.90

订阅专栏

46 篇文章

订阅专栏

T5模型是谷歌在2019年提出的一种预训练语言模型，专注于探究转移学习的极限。该模型基于encoder-decoder结构，采用BERT-style的mask方法和Replace Span的mask策略进行预训练。通过15%的mask比例和3个token的小段长度，T5在文本到文本的转换任务中展现出强大的性能。后续的UniLM和ChatGLM_v1等模型受到了T5的启发，融合了encoder和decoder的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🔥 T5由谷歌发表于2019，《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》，最终版本发布在：JMLR。

一句话总结T5: 大一统模型，seq2seq形式完成各类nlp任务，大数据集预训练，大量实验，财大气粗，诚意满满，给nlp预训练模型领域提供了一个通用框架，提供了一套建议参数。

在这里插入图片描述

作者测过包括encoder-decoder，decoder，prefix lm。 几种不同的结构主要是因为attention mask机制不一样，其中prefix lm可看作是encoder 和 decoder 的融合体，一部分如 encoder 一样能看到全体信息，一部分如 decoder 一样只能看到过去信息。最近开源的 UniLM, ChatGLM_v1便是此结构。
在这里插入图片描述

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

#苦行僧 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。