深度学习实战99-关于大模型LLM框架的实际应用，包括langchain,vllm,Ollama,airLLM等框架

本文链接：https://blog.csdn.net/weixin_42878111/article/details/143499773

大家好，我是微学AI，今天给大家介绍一下深度学习实战99-关于大模型LLM框架的实际应用，包括langchain,vllm,Ollama,airLLM等框架。随着人工智能技术的飞速发展，大语言模型（LLM, Large Language Models）已经成为自然语言处理领域的重要里程碑。这些模型以其强大的理解和生成能力，在文本生成、机器翻译、问答系统等多个应用场景中展现出卓越的表现。接下来我们将重点介绍几种目前较为流行且广泛应用于工业界和学术界的大型语言模型框架，包括 langchain、vllm、Ollama 以及 airLLM 等。

一、大模型LLM框架概述

LLM框架的定义和作用

在人工智能领域的快速发展背景下，大模型应用开发框架(LLM框架)应运而生。这些框架旨在 简化大模型的开发、部署和管理流程 。通过提供标准化的接口和优化的执行策略，LLM框架能够显著提升模型训练和推理的效率，同时降低资源消耗。这种框架不仅提高了开发者的生产力，还使得复杂的大规模模型变得更加易于管理和扩展。
在这里插入图片描述

在实际应用中，LLM框架的作用主要体现在以下几个方面：

资源优化 ：通过并行计算和分布式存储技术，最大化硬件效能。
易用性提升 ：提供友好界面和详尽文档，加速开发进程。
灵活性增强 ：支持多种深度学习框架和编程语言，适应多样化需求。
稳定性保障 ：采用高可用架构和容错机制，确保模型可靠运行。

这些特性共同推动了大模型在各个领域的广泛应用，从自然语言处理到计算机视觉，再到语音识别等多个前沿领域都受益匪浅。

主流LLM框架比较

在大模型LLM框架的竞争格局中，LangChain、vLLM、Ollama和airLLM各具特色，为开发者提供了多元化的选择。这些框架在性能优化、易用性和适用场景等方面展现出各自的优势，满足了不同用户群体的需求:

LangChain 以其丰富的工具和组件脱颖而出，特别适合构建复杂的语言处理应用。它支持多种流行的大规模语言模型，如OpenAI的GPT系列和Hugging Face的Transformers，为开发者提供了广泛的选择空间。LangChain的一个显著特点是其内置的文档加载器和索引支持，这使得处理和索引文档数据变得异常简便。此外，LangChain还提供了文档分割器和向量化功能，进一步增强了其在处理复杂语言任务时的能力。
vLLM 在性能优化方面表现出色。它采用了创新的PagedAttention技术，通过将注意力机制中的键和值存储在不连续的显存空间中，显著提高了显存利用率。这种技术使得vLLM能够在单个4GB GPU上运行高达70B参数的大型语言模型，这是一项令人印象深刻的成就。vLLM还支持连续批处理，进一步提高了模型的吞吐量，使其特别适合处理大量并发请求的场景。
Ollama 则以其易用性和灵活性著称。它提供了一个简单的API来创建、运行和管理模型，使得即使是非专业的用户也能轻松使用。Ollama的一大特点是支持热加载模型文件，这意味着用户可以在不重启整个系统的情况下切换不同的模型。这种特性大大提高了模型部署和实验的效率。Ollama还提供了一个预构建模型库，涵盖了各种自然语言处理任务，如文本生成、翻译和问答等，这使得开发者能够快速构建各种类型的应用程序。
airLLM 在资源受限的环境中表现尤为出色。它通过创新的内存管理技术和模型压缩技术，使得大型语言模型能够在资源受限的设备上运行。airLLM的一个关键特性是其分层推理机制，它将模型分解为多个层，并逐层进行推理。这种方法大大减少了同时需要的GPU内存，使得在低配硬件上运行大型模型成为可能。airLLM还支持可选的量化技术，进一步提高了推理速度，同时几乎不影响模型的准确性。

这些框架各有优势，选择合适的框架取决于具体的应用场景和需求。例如，在资源受限的环境中，airLLM可能是最佳选择；而在追求高性能和大规模并发处理的场景下，vLLM可能更为适合。LangChain的丰富工具和组件使其成为构建复杂语言处理应用的理想选择，而Ollama的易用性和灵活性则适合快速原型开发和模型实验。
LangChain框架

LangChain的核心功能

LangChain框架的核心设计理念在于构建一个强大而灵活的语言模型应用生态系统。其主要组件包括 Model I/O、Data Connection、Memory、Chains、Agents和Callbacks ，每个组件都在构建复杂的语言处理应用中发挥着关键作用。
在这里插入图片描述

Model I/O

Model I/O 模块负责管理大语言模型及其输入输出。它提供了标准化的接口，使开发者能够轻松集成各种LLM提供商，如OpenAI、Cohere和Hugging Face。这一模块的设计极大地降低了开发者的学习曲线，同时也增加了应用的可移植性。

Data Connection

Data Connection 模块专注于处理非结构化数据。它提供了文档加载器和转换器，能够将原始文本转换为可处理的格式。这一功能对于构建知识密集型应用至关重要，特别是在处理大量文档或需要从非结构化数据中提取信息的场景中。

Memory

Memory 功能模块是LangChain的一个独特之处。它允许在链之间存储和传递信息，实现了对话的上下文感知能力。这一功能使得LangChain特别适合构建需要持续对话和长期记忆的应用，如虚拟助手或客服系统。

Chains

Chains 模块是LangChain的核心概念之一。它提供了一系列组件，可以将不同的功能串联在一起，形成复杂的处理流程。通过这种方式，开发者可以构建高度定制化的应用，实现从简单的问答系统到复杂的多步骤推理任务。

Agents

Agents 模块建立在Chains的基础上，进一步增强了应用的自主性。Agent能够根据高级指令选择使用哪些工具，并执行相应的操作。这一功能使得LangChain能够处理更复杂的任务，如多轮对话或需要外部数据源的任务。

Callbacks

Callbacks 模块提供了一个回调系统，允许开发者连接到LLM申请的各个阶段。这为日志记录、监控和数据分析提供了便利，有助于优化应用性能和用户体验。

通过这些精心设计的核心功能，LangChain成功地将复杂的语言处理任务抽象成了可组合的组件，大大简化了开发流程，同时保持了应用的高度灵活性和可扩展性。这种设计思路使得LangChain成为一个理想的平台，无论是构建简单的聊天机器人，还是复杂的知识管理系统，都能找到适合的解决方案。

LangChain应用案例

LangChain框架为开发者提供了一种强大而灵活的方法来构建复杂的语言处理应用。在这个框架的支持下，我们可以构建出能够处理复杂任务的智能系统，如知识问答和多轮对话。以下是一个使用LangChain构建对话系统的具体示例：

from langchain.chains import ConversationalRetrievalChain
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import DirectoryLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.indexes import VectorstoreIndexCreator
from langchain.indexes.vectorstore import VectorStoreIndexWrapper
from langchain.vectorstores import Chroma

# 加载本地文档
loader = DirectoryLoader("path/to/documents")
documents = loader.load()

# 创建向量存储
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(documents, embeddings)

# 创建索引
index_creator = VectorstoreIndexCreator(vectorstore=vectorstore)
index = index_creator.from_documents(documents)

# 创建对话链
chain = ConversationalRetrievalChain.from_llm(
    llm=ChatOpenAI(),
    retriever=index.vectorstore.as_retriever(),
    return_source_documents=True,
)

# 开始对话
while True:
    user_input = input("请输入您的问题：")
    if user_input.lower() == "exit":
        break
    result = chain({"question": user_input})
    print("回答：", result["answer"])

这个示例展示了如何使用LangChain构建一个基于本地知识库的问答系统。系统首先加载本地文档，然后创建向量存储和索引。接下来，它使用ConversationalRetrievalChain创建对话链，这个链能够根据用户输入的问题检索相关文档并生成回答。值得注意的是，这个系统支持多轮对话，能够根据对话历史提供更准确的答案。

LangChain的强大之处在于它的灵活性和可扩展性。除了上述基本示例外，我们还可以通过添加额外的功能来增强系统的功能。例如，我们可以集成外部API或数据库，以提供更全面的信息来源。此外，LangChain还支持多语言处理，使得构建跨语言的问答系统成为可能。

在实际应用中，LangChain框架被广泛用于构建各种类型的对话系统。这些系统不仅可以用于客户服务和信息检索，还可以应用于教育、医疗和娱乐等领域。通过结合LangChain的组件和工具，开发者可以快速构建出功能强大、性能优异的对话系统，为企业和用户提供智能化的服务体验。

二、vLLM框架

vLLM的性能优化

vLLM框架通过创新的PagedAttention算法显著提高了大模型的推理速度和内存效率。这项技术巧妙地解决了大型语言模型服务中的关键瓶颈问题，为高性能推理开辟了新的可能性。
在这里插入图片描述

PagedAttention算法的核心思想源自操作系统中的虚拟内存和分页技术。它将每个序列的KV缓存划分为多个固定大小的块，这些块在内存空间中不必连续。这种设计允许系统更灵活地管理键和值，大幅提高了显存利用率。
在这里插入图片描述

具体而言，PagedAttention的工作原理如下：

将KV缓存划分为多个块，每个块包含固定数量的token。
建立块表，记录逻辑块与物理块之间的映射关系。
在注意力计算过程中，高效识别和获取这些块。
实现内存共享机制，允许多个序列共享相同的物理块。

这种设计带来的优势包括：

减少内部碎片化：通过按需分配块，而非预分配连续内存空间。
提高内存利用率：实现近似最优的内存使用，浪费率低于4%。
支持灵活的内存管理：允许系统根据需要动态分配和回收内存。
实现高效的内存共享：通过块表实现不同序列间的共享，减少冗余计算。

PagedAttention算法在实践中取得了显著成效：

“评估结果表明，vLLM能够将常用LLM的吞吐量提高2-4倍，同时保持与最先进的系统相当的延迟水平。”

这种性能提升在处理更长序列、更大模型和更复杂的场景时尤为突出。例如，在处理长达数千个token的输入时，vLLM仍能保持高效的性能，这对于处理复杂的自然语言任务至关重要。

此外，vLLM还支持连续批处理，进一步提高了模型的吞吐量。这种方法允许系统在生成一个token后立即安排下一批请求，最大限度地利用GPU的计算能力。这种策略特别适合处理大量并发请求的场景，如在线问答系统或聊天机器人应用。

通过这些优化，vLLM框架成功地解决了大型语言模型推理过程中的关键瓶颈问题，为高性能、高吞吐量的LLM服务奠定了坚实的基础。

vLLM部署示例

在介绍了vLLM框架的性能优化后，我们现在来看看如何实际部署一个大型语言模型。vLLM框架提供了简单直观的API，使得部署过程变得十分便捷。以下是一个使用vLLM部署LLM模型的完整示例：

from vllm import LLM, SamplingParams

# 设置环境变量，指定使用魔搭社区的模型
os.environ['VLLM_USE_MODELSCOPE'] = 'True'

# 创建LLM对象，加载模型
llm = LLM(model="qwen/Qwen-7B",
          revision="v1.1.8",
          trust_remote_code=True)

# 定义提示语句列表
prompts = [
    "Hello, my name is",
    "The capital of France is",
    "The future of AI is"
]

# 设置采样参数
sampling_params = SamplingParams(
    temperature=0.8,
    top_p=0.95,
    stop=["<|endoftext|>"]
)

# 执行推理
outputs = llm.generate(prompts, sampling_params)

# 输出结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs.text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

这段代码展示了如何使用vLLM框架部署和运行一个大型语言模型。首先，我们设置了环境变量VLLM_USE_MODELSCOPE，指示vLLM从魔搭社区下载模型。然后，我们创建了一个LLM对象，指定了模型名称、版本和是否信任远程代码。

接下来，我们定义了一组提示语句，并设置了采样参数。这些参数控制了模型生成文本的行为，如随机程度和截断条件。最后，我们调用generate方法进行推理，并遍历输出结果。

vLLM的一个显著优点是其 高性能和灵活性 。通过使用PagedAttention技术，它能在单个GPU上运行拥有数十亿参数的大型模型。这使得研究者和开发者能够在资源有限的环境中进行复杂的语言处理任务。

此外，vLLM还支持 连续批处理 ，允许系统在生成一个token后立即安排下一批请求。这种机制特别适合处理大量并发请求的场景，如在线问答系统或聊天机器人应用。

在实际部署中，vLLM还提供了 OpenAI兼容的API服务器 ，使得集成到现有系统中变得非常容易。这大大简化了将大型语言模型集成到各种应用场景的过程，如客户服务、知识管理或个性化推荐系统。

通过这个示例，我们可以看到vLLM框架如何简化了大型语言模型的部署过程，同时提供了强大的性能优化和灵活的参数控制。这使得研究人员和开发者能够更容易地将先进的语言处理技术应用到他们的项目中，推动了人工智能在各行各业的发展。

三、Ollama框架

Ollama的特性和优势

Ollama框架在本地运行开源LLM方面展现出了独特的魅力和显著的优势。作为一个专注于简化大型语言模型部署和使用的开源框架，Ollama为开发者提供了一个强大而灵活的平台，尤其适合那些希望在本地环境中运行和实验开源LLM的用户。

Ollama的几个核心特性值得特别关注：

热加载模型文件 ：这项功能允许用户在不重启整个系统的情况下切换不同的模型。这种灵活性极大地提高了模型部署和实验的效率，使得开发者能够快速迭代和比较不同模型的表现。假如你正在开发一个文本生成应用，Ollama的热加载功能让你能够轻松地在多个模型之间切换，实时观察不同模型的输出质量，从而做出最佳选择。
丰富的预构建模型库 ：Ollama提供了一个涵盖多种自然语言处理任务的模型集合，包括文本生成、翻译和问答等。这个多样化的模型库不仅加快了应用开发过程，还为开发者提供了广泛的实验基础。无论你是新手还是经验丰富的开发者，都可以在这个模型库中找到适合自己需求的模型。
多模态模型支持 ：除了传统的文本处理模型，Ollama还支持处理图像、音频和视频等多模态数据的模型。这种多模态支持极大地拓展了Ollama的应用范围，使得开发者能够构建更加复杂和全面的人工智能系统。例如，你可以利用Ollama开发一个既能理解文字又能分析图像内容的智能助手，为用户提供更丰富的交互体验。
强大的前端支持 ：Ollama提供了优秀的第三方开源前端工具，如"Ollama Web-UI"。这个前端工具不仅简化了模型的使用过程，还提供了直观的交互界面，使得非技术人员也能轻松使用Ollama。这种用户友好的设计大大降低了使用门槛，使得更多人能够参与到AI应用的开发和实验中来。
灵活的部署选项 ：Ollama支持多种部署方式，包括本地安装和Docker容器化。这种灵活性使得开发者可以根据自己的需求和环境选择最适合的部署方式。无论是在个人电脑上进行快速原型开发，还是在服务器集群上进行大规模部署，Ollama都能满足需求。

通过这些特性，Ollama成功地在本地运行开源LLM方面建立了独特的优势。它不仅简化了模型部署和使用的过程，还为开发者提供了丰富的实验和创新机会。无论是学术研究还是商业应用，Ollama都为开源LLM的本地化使用铺平了道路，推动了人工智能技术的普及和发展。

Ollama使用教程

Ollama框架的使用过程简洁明了，为开发者提供了快速部署和运行大型语言模型的有效途径。以下是详细的安装和使用步骤：

安装Ollama

对于Windows用户，可通过以下方式安装：

访问Ollama官网下载页面
选择适合的安装包
双击安装程序完成安装

Linux用户可使用一键安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

下载模型

使用pull命令下载所需模型：

ollama pull llama3

运行模型

运行已下载的模型：

ollama run llama3

自定义模型参数

通过编写Modelfile配置文件，可调整温度、top_p等参数，以优化模型生成效果。

多GPU并行推理

在多GPU环境下，可通过设置环境变量指定特定GPU：

export CUDA_VISIBLE_DEVICES=0,1,2,3
ollama run llama3

Web UI集成

为提升用户体验，可安装Open WebUI：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

通过以上步骤，开发者可在本地环境中快速部署和运行大型语言模型，无需复杂的配置过程。Ollama的灵活性和易用性使其成为研究和开发的理想工具，特别适合需要频繁实验和迭代的场景。

四、airLLM框架

airLLM的设计理念

airLLM框架的核心设计理念聚焦于 优化大模型推理阶段的内存使用 。通过创新的分层推理机制，它实现了在资源受限环境下的高效模型运行。这种设计使airLLM能够在单个4GB GPU上运行高达70B参数的大型语言模型，无需依赖传统的量化、蒸馏或剪枝技术。

airLLM的独特之处在于其高效的内存管理机制，包括先进的缓存策略和数据流调度算法。这些技术实现了对模型权重和中间结果的有效复用，大幅减少了所需的显存空间。此外，airLLM通过对计算图进行智能拆分和重排，进一步优化了内存使用，确保即使是最复杂的模型也能在低端硬件上流畅运行。这种设计不仅降低了运行大模型的成本门槛，还为边缘计算和嵌入式系统提供了更广阔的应用前景。

airLLM实践指南

在介绍完airLLM的设计理念后，让我们深入了解如何实际使用这个框架来部署和调用大型语言模型。airLLM的使用过程简单直观，为开发者提供了高效且灵活的方式来运行复杂的LLM模型。

airLLM的安装过程与其他Python库类似，可以通过pip命令轻松完成：

pip install airllm
pip install tiktoken
pip install transformers_stream_generator einops

安装完成后，我们可以开始加载和使用模型。airLLM的一个显著特点是支持多种主流的大型语言模型，如Llama系列、ChatGLM、QWen、Baichuan、Mistral和InternLM等。这为开发者提供了广泛的选择空间，可以根据具体需求选择最适合的模型。

以下是一个使用airLLM加载和运行Qwen-7B模型的基本示例：

from airllm import AutoModel

MAX_LENGTH = 128
model = AutoModel.from_pretrained("qwen/Qwen-7B-Chat")

input_text = ["What is the capital of United States?"]
input_tokens = model.tokenizer(
    input_text,
    return_tensors="pt",
    return_attention_mask=False,
    truncation=True,
    max_length=MAX_LENGTH,
    padding=False
)

generation_output = model.generate(
    input_tokens['input_ids'].cuda(),
    max_new_tokens=20,
    use_cache=True,
    return_dict_in_generate=True
)

output = model.tokenizer.decode(generation_output.sequences)
print(output)

在这个例子中，我们首先导入了AutoModel类，这是专门用于处理Qwen-7B模型的。然后，我们设置了最大序列长度为128，并加载了本地模型。接着，我们准备了输入文本，进行了分词处理，并设置了生成参数。最后，我们调用了generate方法来进行推理，并解码输出结果。

airLLM的一个关键特性是其 分层推理机制 。这种机制将模型分解为多个层，并逐层进行推理。每一层完成计算后，其内存会被释放，只保留必要的输出结果。这种方法大大减少了同时需要的GPU内存，使得在资源受限的环境中运行大型模型成为可能。

为了进一步优化性能，airLLM还提供了可选的量化技术。虽然不是必须使用，但启用4位或8位块级量化可以显著提高推理速度，同时几乎不影响模型的准确性。这为在资源受限环境中运行大型模型提供了额外的优化选择。

airLLM还支持在MacOS平台上运行，这为开发者提供了更多的灵活性。这意味着即使在个人电脑上，也可以体验和开发基于大型语言模型的应用，大大降低了进入门槛。通过这些特性，airLLM为开发者提供了一个强大而灵活的平台，使得在各种资源受限的环境中部署和使用大型语言模型成为可能。这不仅降低了使用大型语言模型的门槛，也为AI技术的普及和创新开辟了新的可能性。

airLLM通俗的原理解释

airLLM主要是将大模型中transformer分成38层左右，每一层加载模型参数进行计算，然后生成结果，释放内存，再加载下一层参数，并计算上一层的输出，以此类推。各种大小的模型每层显存占有情况：
70B模型，参数文件大概140G大小，transformer拆分后，每层约占显存4G。
32B模型，参数文件大概80G大小，transformer拆分后，每层约占显存2.2G。
14B模型，参数文件大概27G大小，transformer拆分后，每层约占显存700M。

五、LLM框架的选择与应用

框架选择指南

在选择LLM框架时，需要权衡多个因素，包括性能需求、资源限制和应用场景。以下是针对不同需求的框架选择建议：

资源受限环境 ：airLLM是理想选择，它能在单个4GB GPU上运行70B参数的大型语言模型。
高性能推理 ：vLLM框架的PagedAttention技术可显著提高推理速度和内存效率。
复杂语言处理应用 ：LangChain框架提供丰富的工具和组件，支持多种大模型。
快速原型开发 ：Ollama框架的易用性和灵活性使其成为首选。

选择合适的框架不仅能提高开发效率，还能优化最终应用的性能和用户体验。开发者应根据具体需求和场景，综合考虑这些因素，以做出最佳选择。

未来发展趋势

LLM框架的未来发展将聚焦于 多模态融合 和 自适应学习 。多模态融合技术将整合文本、图像和音频等多种数据类型，实现更全面的理解和生成能力。自适应学习技术将使模型能够根据用户反馈和环境变化持续优化性能。这些进展将推动LLM框架在 跨模态检索 和 个性化推荐 等领域的应用深化，为用户提供更智能、更个性化的服务体验。同时，随着量子计算和神经形态芯片等新技术的发展，LLM框架可能会迎来革命性的突破，实现更高的计算效率和更低的能耗。