自然语言处理(NLP)作为机器学习/深度学习中应用最为广泛的子学科之一,随着像ChatGPT、Alpaca、Llama、Falcon、Bard等生成式预训练Transformer(GPT)模型在各类在线平台的广泛应用,其重要性愈发凸显。在这些模型不断发展的过程中,让它们更易于被大众使用成为了关注焦点,而开源模型在这一努力中发挥着尤为重要的作用,为研究人员、开发者和爱好者提供了探索模型复杂性、定制特定用途以及拓展基础功能的机会。本文将深入探讨在Hugging Face排行榜上名列前茅的最大开源大语言模型(LLM)——Falcon LLM。
一、Falcon初印象
2023年9月6日,阿联酋的技术创新研究所(TII)发布了Falcon 180B,它拥有1800亿个参数,是目前最庞大的开源大语言模型。该模型使用了3.5万亿个标记进行训练,上下文窗口为2048个标记,所使用的数据量是Llama 2的四倍。在训练过程中,动用了4096个A100 40GB GPU,采用3D并行策略(TP=8, PP=8, DP=64)结合ZeRO,训练时长约700万个GPU小时。Falcon 180B的速度比Llama 2等LLM快2.5倍,在多任务语言理解(MMLU)任务中也优于Llama 2,在Hugging Face预训练模型排行榜上位居榜首,可用于研究和商业目的,且在多项任务上与谷歌的PaLM 2 - Large表现相当,已然成为PaLM - 2和GPT - 3的有力竞争对手,仅次于GPT - 4。但需要注意的是,该模型运行至少需要320GB内存,对资源要求较高。
二、大语言模型概述
大语言模型(LLMs)是用于执行自然语言处理(NLP)任务的深