目录
前言
大型语言模型,也称为“大规模语言模型”,是指旨在处理和理解人类语言的人工智能(AI)模型。 这些模型是更广泛的自然语言处理 (NLP) 领域的一部分,能够执行各种与语言相关的任务,例如文本生成、翻译、情感分析、语言理解、问答等。
最突出、最知名的大语言模型是OpenAI的GPT(Generative Pre-trained Transformer)系列。 GPT-3 是“Generative Pre-trained Transformer 3”的缩写,是迄今为止最先进的语言模型之一,拥有数量惊人的参数(1750 亿)。 这些参数代表模型在预训练阶段获得的“知识”或“经验”,在预训练阶段模型会接触到来自互联网的大量文本数据。
算法原理
LM研究发展阶段
LM旨在对单词序列的生成可能性进行建模,从而预测未来(或缺失)token的概率。
LM的研究可以分为四个主要的发展阶段:
-统计语言模型(SLM)
SLM基于20实际90年代兴起的统计学习方法开发。基本思想是建立基于马尔可夫假设的单词预测模型