LLM推理入门指南①：文本生成的初始化与解码阶段

OneFlow深度学习框架

已于 2024-02-26 13:05:01 修改

阅读量4.4k

点赞数 17

CC 4.0 BY-SA版权

分类专栏：前沿技术文章标签：大模型推理人工智能 LLM 语言模型

于 2024-02-23 08:59:10 首次发布

本文链接：https://blog.csdn.net/OneFlow_Official/article/details/136266868

随着生成式AI的火热发展，高企的语言大模型（LLM）推理性能和成本成为阻碍其大规模应用的关键挑战。

LLM推理是指使用仅解码器Transformer模型生成词元，而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战，同时，其中提供的有价值见解也适用于Transformer编码器模型的推理。

通过本系列内容的学习，希望帮助读者了解与LLM推理密切相关的术语，比如键-值（KV）缓存、内存带宽限制（memory-bandwidth bound）等，以便理解推理优化（量化、融合kernel、模型架构修改等）和配置（批处理大小、使用哪种GPU等）所涉及的各种技术，并最终将它们与关键的性能指标（时延、吞吐量和成本）联系起来。

希望读者建立起一个见解深刻的心智模型，从而能够在配置和优化LLM serving解决方案时做出明智且迅速的决策。本文是该系列的第1篇文章，主要关注文本生成的两个阶段：初始化阶段和生成（或解码）阶段。

在阅读本系列文章之前，读者需对Transformer架构以及在著名的《Attention Is All You Need》论文中介绍的缩放点积注意力（SDPA）机制有基本了解，但无需深入了解注意力机制背后的动机因素。

本文作者为AWS的GenAI解决方案架构师Pierre Lienhart。以下内容由OneFlow编译发布，转载请联系授权。原文：https://medium.com/@plienhar/llm-inference-series-2-the-two-phase-process-behind-llms-responses-1ff1ff021cd5）

作者 | Pierre Lienhart

OneFlow编译

翻译｜宛子琳、杨婷

本文回顾了Transformer架构以及使用基于Transformer的解码器进行文本生成的基础知识。更重要的是，我将构建起整个LLM推理系列中要使用的词汇表，并使用粗体标记出个人认为重要的术语。读者将主要了解文本生成的两个阶段