上课！今天我们讲LLM（大语言模型）的前世今生-CSDN博客

本文链接：https://blog.csdn.net/jennycisp/article/details/148640264

一、什么是LLM？

语言模型（language model,LM）通过计算单词序列的概率进行语言建模，其主要作用是基于给定的上下文，预测序列中下一个词的概率分布。随着计算能力的提升和数据量的增长，LM的发展经历了从统计语言模型（statistical language model , SLM）到神经语言模型（neural language model , NLM）的演进。

2018年，BERT（bidirectional encoder representations from transformers）模型的提出，标志着预训练语言模型（pre-trained language model , PLM）时代的开启。PLM是一种基于大量无标注文本数据进行深度学习的模型，旨在捕捉自然语言的语法、语义以及常识。

此后，一系列PLM如GPT（generative pre-trained transformer）系列、RoBERTa（Robustly optimized BERT pre-training approach）、XLNet等相继出现。

GPT系列模型通过自监督学习在广泛的文本数据上进行预训练，进而灵活地应用于写作助手、代码生成和自动化客户服务等多种下游任务。BERT和RoBERTa模型侧重于理解语境中的语言，如文本分类、命名实体识别和问答系统等。这些模型利用Transformer架构，并依赖自注意力（self-attention）机制捕捉输入数据中的复杂依赖关系，从而显著提高自然语言处理任务的准确性。当PLM的有效参数规模达到数百亿级别时，便称之为LLM。

LLM也称大规模语言模型，是由包含数百亿以上参数的深度神经网络构建的语言模型，通过自监督学习方法利用大量未标注文本进行训练。其核心思想是通过大规模的无监督训练学习自然语言的模式和结构，在一定程度上模拟人类的语言认知和生成过程。

相比传统的NLP模型，LLM能够更好地理解和生成自然文本，同时表现出一定的逻辑思维和推理能力。

LLM在多种应用场景下表现出色，不仅能执行拼写检查和语法修正等简单的语言任务，还能处理文本摘要、机器翻译、情感分析、对话生成和内容推荐等复杂任务。

在医学领域，LLM能够处理和分析海量的医学文献、病历数据等医学信息，为医学人工智能的应用提供了更加智能和高效的解决方案。

二、LLM的技术原理是？

目前，医学领域中LLM的训练流程主要分为3步：基于文本数据对模型进行预训练、基于问答数据对模型进行微调以及基于特定提示词的上下文学习，使通用模型适应医学领域的特定需求。因此，本文将从预训练、微调和上下文学习这3个步骤介绍医学大语言模型的开发与应用原理。见图1。

图1 医学大语言模型的技术原理

预训练

在医学领域，预训练通常指在大规模医学语料库（如电子病历数据、临床指南与实践规范、医学教材与学术论文）上应用自监督学习方法，使模型在无监督的环境下学习医学术语和复杂语言结构之间的语义关系。

利用掩码语言模型（masked language model , MLM）和自回归模型(auto-regressive model , AR）等方法，结合Transformer架构的自注意力机制，通过最小化交叉熵损失函数（cross-entropy loss function）对参数进行优化和权重调整。

这一过程使得模型能从语法到语义层面把握医学语言的特征，学习医学专业的词汇、术语及其上下文用法，捕捉复杂的语言结构和医学概念之间的关系，从而建立坚实的医学语言基础，形成强大的医学语言理解能力。例如：

BioMistral在PubMed文献数据集上进行预训练，使其在英语医学问答和多语言复杂评估方面表现出更高的准确性和效率；

ClinicalBERT在大规模电子健康记录（EHR）数据上进行预训练，显著提升了EHR的自动化处理能力，在患者病史摘要、临床事件提取和病程记录分析等任务中展现了卓越的性能。

微调

预训练完成后，模型通常会在特定的医学任务上进行微调，使其更好地适应特定的应用场景。

通过利用高质量的医学语料库，如医患对话、医学问答和知识图谱等中小规模、任务特定的标注数据集，调整预训练模型的参数，衡量模型预测结果与真实标签之间的差异，并通过反向传播算法更新模型参数，使其更好地满足具体的医学应用需求。

微调不仅保留了大规模预训练阶段积累的广泛知识背景，还将通用大语言模型转变为更加专业的医学大语言模型。该过程显著提高模型对医学文本的理解和生成能力。

例如，PMC-LLaMA是基于LLaMA-7B模型在480万篇生物医学论文数据集上进行微调的结果，在测试数据集上表现出对医学知识更深入的理解能力。与预训练相比，微调大大降低了计算成本，同时显著增强了模型在医学领域的实用性和性能。

上下文学习

上下文学习是指在模型输入中加入特定的提示词，以引导模型生成特定的输出，而无需训练任何模型参数。

目前，使用最广泛的是零样本提示或少样本提示。零样本提示不提供示例，旨在直接给出指令，提示LLM按照给定指令有效执行任务。少样本提示则在要求执行任务之前，向LLM提供少量示例或任务演示，利用模型的内部知识和推理能力来理解示例中的模式和逻辑，最终生成与任务相关的答案。

例如，Med-PaLM是基于PaLM模型，在少量任务示例的提示引导下训练得到，可准确回答多项医学领域选择题和开放式问题，具有与临床医师相当的效果。

上下文学习过程对于大模型在医学领域的应用尤为重要，因为不同的医学场景需要模型理解并回应极其专业和具体的指令或问题。通过设计精确的提示词，引导模型学习领域偏好，提高其专业性和准确性，研究者和临床医生能更好地利用LLM完成诊断支持、治疗建议等任务。

三、LLM能做什么？

当前，LLM已经成为推动医学进步的新生因素，其应用范畴不再局限于理论概念的验证，MedGPT等大模型分别在医疗实践、医学教育以及医学研究等多个维度展现了前所未有的价值。见图2。

图2 医学大语言模型的应用方向

通过深度学习海量医学数据，LLM不仅能辅助医生进行精准诊断和制定治疗方案，而且在加速新药研发、深化疾病理解等方面发挥了重要作用，同时也正重塑医学教育的模式。

医疗实践

（1）医疗问答

在医疗实践中，LLM在医疗问答方面展现出了良好的应用潜力。

医学大语言模型ChatDoctor收集了700多种疾病及其对应的症状、所需医学检查和推荐药物，生成了5000次医患对话数据集，并从在线医疗咨询网站获得了20万条真实医患对话数据。利用这些数据集对LLaMA大模型进行微调后，模型在理解患者需求方面表现更为优异。

该项目还设计了一个基于Wikipedia和医疗领域数据库的知识系统，能实时访问权威信息并回答患者问题。实验显示，微调后大模型的精度、召回率和F1值均超过了ChatGPT。

Med-PaLM2是Google研发的基于PaLM2基座的专家级医疗问答大语言模型，该模型在PubMedQA、MedQA等多个测评数据集上取得了最优表现，在多项选择和长形式医疗问答任务场景中表现出色。

MediSearch医疗大模型搜索引擎在美国医师资格考试数据集USMLE上测评结果排名第一，比GPT-4和Claude的表现更好。

（2）辅助诊断

在医疗领域，大模型可为医生提供疾病诊疗的新工具、新方法，辅助疾病的诊断、治疗和预防。

MedGPT是基于GPT-2的LLM，预训练阶段使用了超过20亿的医学文本数据，微调训练阶段使用了800万条的高质量结构化临床诊疗数据，并投入超过100训练。目前参数规模为名医生参与人工反馈监督微调1000亿，可支持医疗场景下的多模态输入和输出，包括开具检验检查单和给出准确诊断、治疗方案。

此外，Google联合DeepMind研发的Med-Gemini系列大模型，拥有长达100万个标记的上下文理解及多模态处理能力，在放射科影像、长文本电子病历理解、手术视频理解等多模态复杂任务场景中表现出色，能轻松应对数十万字的内容或数小时的视频分析，为临床医生提供全方位的支持。在NEJMCPC这一包含复杂诊断病例的数据集上，表现相当出色。

目前也有研究探讨LLM在神经障碍性疾病、眼科、肺癌等专科专病辅助诊断上的使用案例。医学大语言模型的应用能有效支持疾病的早期诊断，推动了医疗技术的进步和临床实践的革新。

医学教育

LLM能够快速获取和理解复杂的医学知识，在医学教育和外科培训中发挥着越来越重要的作用。

GPT-4与Med-PaLM2在医学测试场景中的出色表现，显示了LLM具的巨大潜力作为医学生入门教育辅助工。

GPT-4采取循序渐进的提问策略，引导学生主动探究，直至他们能独立思考解决问题的路径，这种互动学习模式极大促进了深度理解和批判性思维能力的培养。同时，对话日志的功能使教育者得以密切追踪学习进程，精准识别学生的学习难点，从而实施针对性的教学干预。

此外，人工智能技术在外科培训的应用前景也被广泛关注，特别是模拟手术训练、基于AI的评估工具以及虚拟现实（VR）和增强现实（AR）技术的进步，显著提高了LLM在即时反馈、多语种翻译和信息提取等方面的能力。

LLM在医学教育的应用不仅促进了教学沟通的优化，实现了个性化学习反馈的精准推送，还通过高保真模拟练习和智能化评估体系，重塑了外科教育的实践模式，使之变得更加高效、精确，从而为培养外科医生提供了强大的技术支持与学习环境。

医学研究

LLM不仅在疾病诊断中表现出色，在医学研究中也能发挥重要作用，推动对疾病分子机制的理解和新治疗方法的发现。

谷歌DeepMind和Isomorphic Labs联合发布了最新预测蛋白质等结构的大模型AlphaFold 3，可以通过准确预测蛋白质、DNA、RNA、配体等的结构以及它们之间的相互作用，增强对蛋白质的预测准确率和架构解读，进而帮助理解疾病的分子基础，发现疾病的成因和潜在的治疗目标。

此外，LLM可以通过从临床记录中提取医学术语并为其分配相应的国际疾病分类编码（international classification of diseases , ICD），来帮助自动化ICD编码。PLM-ICD是专门用于自动化ICD编码任务的大语言模型，该模型显著减少了手工编码所需的时间和人力资源，提高了医疗机构的工作效率，同时减少了人为错误。

由华为云联合中国科学院共同训练开发的盘古药物分子大模型，可以实现针对小分子药物全流程的人工智能辅助药物设计。实验结果表明，盘古药物分子大模型的成药性预测准确率比传统方式高20%，可以提升研发效率，使先导药的研发周期从数年缩短至1个月，降低70%的研发成本。

总之，LLM的应用推动了医学研究的进展，为未来的医疗技术创新提供了强有力支持。

四、LLM有什么缺陷？

数据集质量

医学领域的数据集规模相对有限，尤其在某些特定医学任务中，可用的训练数据更为稀缺。对于罕见疾病或特定医学领域的研究，由于数据集存在缺失值等问题，模型的性能难以得到有效验证和提升，泛化能力受到影响，从而限制了医学大语言模型的应用。此外，获取和标注医学数据的成本较高，也影响了数据集的质量。

为解决这些问题，可以采取以下措施：利用生成式对抗网络（GANs）等数据增强方法生成合成数据，以扩充高质量数据集的规模；开发和应用迁移学习与少样本学习技术，使模型在有限数据上仍能有效学习和泛化；建立开放数据和共享平台，推动各医疗机构和研究机构之间的合作，降低数据获取和标注成本，促进数据共享和联合训练；制定数据标准化和规范化指南。

缺乏评估基准和衡量标准

针对医学领域的语言理解任务，缺乏统一的数据集和评价指标使不同研究团队提出的模型难以在相同基准上进行客观的比较和评估。

尽管现有的基准测试数据集，如PubMedQA和MedQA（USMLE），涵盖了广泛的问答任务，但未能评估LLM在准确性、可靠性和可解释性等特定重要指标上的表现，而这些方面的评估对于医学应用至关重要，因为它们直接影响模型在实际医疗场景中的应用效果和安全性。

因此，建立统一的评估基准和衡量标准至关重要，需开发多维度评估标准，全面衡量医学大语言模型在实际应用中的表现，包括其在提供准确可靠的医学建议、忠实于医学知识、提供实用信息和具备透明推理过程等方面的能力，从而推动其发展和应用。

隐私和安全问题

医学大语言模型的应用涉及患者的隐私和敏感信息，未经适当处理的病例描述可能会泄露患者身份信息或其他敏感信息，因此面临隐私和数据安全问题。

医学大语言模型的黑盒性质增加了其不可解释性，难以追踪模型的决策过程、发现潜在的安全漏洞。在数据不足或领域训练不充分的情况下，大模型可能产生“幻觉”，从而增加误诊或漏诊的风险。此外，广泛应用医疗大语言模型可能加重医疗工作对人工智能的依赖，影响医生独立决策能力的提升。

因此，医生需要具备更高的素养来分析人工智能决策的潜在风险。解决这一问题的对策包括开展模型可解释性研究、提供决策解释的培训和教育，协助医生更好地理解模型建议；建立严格的伦理审查和规范准入机制，以确保模型应用的准确性和可靠性。

五、LLM未来方向是？

多模态大语言模型

多模态预训练研究进展迅速，不断推动下游任务的性能突破新边界，催生了多模态大语言模型。这些模型利用基础大模型提供的多种能力，如稳健的语言泛化、零样本迁移和上下文学习能力，能够处理涉及文本、图像、音频等多种数据模态的任务。

尽管目前只有极少数医学大语言模型能够处理时间序列数据，如心电图（ECG）和脉搏波图（PPG），但这些研究已初显成效，表明多模态大语言模型在自然语言处理任务之外的医学领域中也有很大的潜力。

未来，医学多模态大语言模型的发展方向可能包括：

①融合各个模态基础模型提供的高质量表征，提升整体模型的表现。重点是开发能够高效融合不同模态数据的算法，尤其是在处理异质数据时，确保模型能够充分利用每种模态的信息，以更好地整合文本、图像、音频和时间序列数据，从而具备全面的医学诊断和分析能力。

②对于视频和图像等资源密集型模态，开发新的训练方法和优化技术，探索更高效的硬件架构、分布式计算技术，以及创新的模型压缩和剪枝方法，增强模型的可解释性，同时降低训练成本，提高训练效率。

生成高质量的合成数据集

随着数据隐私和伦理问题日益突显，合成数据成为能够平衡数据使用与隐私保护的有效手段。

研究人员通过使用生成对抗网络（GANs）、变分自编码器（VAEs）等技术可以生成合成数据，这些数据不仅在视觉、文本和时间序列维度上均能达到高度的真实性与多样性，还能灵活模拟各种复杂病理状态和治疗场景，为模型提供了丰富的“虚拟病案”。在不侵犯个人隐私的前提下，构建起庞大的训练资源库，拓宽模型的学习范畴和深度。

此外，合成数据还可以用于增强模型的鲁棒性和泛化能力。通过训练精心设计的合成病例，模型被反复挑战于极端或罕见的医疗情境下，解决现实中数据稀缺、质量不高等问题的同时，增强了模型识别异常状况、适应新疾病形态的能力。

合成数据集还可以用于模拟不同人口统计特征的数据，通过策略性地生成涵盖广泛人口统计特征的患者数据，避免模型因现实世界数据偏斜导致的歧视性预测，确保算法在不同性别、年龄、种族和地域的人群中都能提供准确且无偏见的医疗服务，提高医学大语言模型的适用性和有效性。

建立大模型标准化评估方法体系

随着LLM在医学领域的应用越来越广泛，建立大模型标准化评估方法体系变得尤为重要。标准化评估体系可以确保模型的性能得到客观、公正的评价，从而为模型的开发和应用提供可靠的参考依据。建立大模型标准化评估方法体系具体可分为3个阶段。

①定义评估指标：根据医学大语言模型的特性和应用场景，制定一套涵盖模型的准确性、鲁棒性、泛化能力、解释性以及安全性等方面的详细评估指标。

②建立评估数据集：数据集的多样性和真实性是评估体系的重要基础，收集构建具有代表性且包含不同类型医学数据的评估数据集，如文本、图像、音频和时间序列数据等，并确保数据的来源可靠、标注准确。

③明确评估流程：流程包括数据预处理、模型训练、模型评估和结果分析等环节，确保每个环节的操作规范和严谨，实现评估过程的透明性和可重复性。通过建立医学大语言模型标准化评估方法体系，提高模型的可靠性和应用价值，促进医学大语言模型的规范化发展，从而提升LLM在实际医疗场景中的应用水平。

人工智能大模型（如ChatGPT、DeepSeek等）正驱动着技术变革，掌握相关技术已成为提升竞争力的关键。然而，大模型技术涉及领域广泛，学习曲线陡峭。为了帮助大家系统性地学习和掌握大模型技术，我们整理了一份资源包，旨在提供从理论基础到实践应用的全面支持。

这份资源包包含以下内容：

大模型学习路线与阶段规划： 提供清晰的学习路径，帮助学习者了解不同阶段的学习目标和所需技能。

人工智能论文PDF合集： 收录了重要的大模型相关论文，涵盖Transformer架构、预训练模型、微调技术等关键领域，方便深入研究。

52个大模型落地案例合集：汇集了不同行业的大模型应用案例，展示了如何将大模型技术应用于实际问题，并提供参考实现思路。

100+本数据科学必读经典书： 涵盖机器学习、深度学习、自然语言处理等领域的基础理论和算法，为理解大模型技术奠定基础。

600+套大模型行业研究报告： 提供市场分析、技术趋势、竞争格局等信息，帮助了解大模型技术的行业应用和发展前景。

这份资源包对于想要系统学习大模型技术的人来说，无疑是一份极具价值的指南。首先，要充分利用其中的“大模型学习路线与阶段规划”，这相当于你的学习地图，这份指南出自于我们体系教程《NLP大模型人才培养计划》。

务必仔细研读，了解每个阶段的目标、所需技能和学习内容，并根据自身情况进行调整，制定个性化的学习计划。可以将大的学习路线分解为更小的、可实现的目标，并设定完成时间，这有助于保持学习动力和跟踪进度。

添加微信

在这里插入图片描述

咨询大模型人才培养计划 &免费领取本文资源

大模型学习路线与阶段规划

本路线旨在帮助学员掌握大模型相关技术栈，以及大模型在行业场景中的应用，包含企业级大模型项目实战。

各阶段详细学习内容：

阶段一：自然语言处理（NLP）与AI基础

目标： 掌握NLP与深度学习AI的基础知识，为后续大模型学习打下坚实基础。
学习内容：
- 自注意力机制（self-attention）
- 如何让模型学习到文本中不同语段的上下文联系？
- 巧用位置编码，传递语句前后顺序关系
- 核心计算流程：编码（Encoder）和解码（Decoder）
- 实践任务一： 使用Pytorch手撸Transformer
- 实践任务二： 全能的Transformer，解决时序预测问题
- 循环神经网络结构拆解
- 如何解决长序列的知识遗忘问题？—长短期记忆神经网络
- 基于PyTorch实现RNN代码架构
- 如何赋予模型双向学习能力？
- 在不同任务中的RNN的用法区别：分类、序列标注等
- 实践任务： 基于RNN的分词任务实战
- 卷积神经网络结构拆解
- 基于PyTorch实现CNN代码架构
- 卷积网络中的经典层（Layer）及其实现方法
- 卷积网络中的经典模块（Module）及其实现方法
- 使用卷积网络建模的经典模型介绍
- 实践任务： 使用CNN搭建文本分类模型
- 实践任务二： 深度学习开发环境搭建
- 实践任务一： 从0实现逻辑回归模型
- 人工智能的发展路径
- 机器学习优化方法和应用
- 深度学习的发展和应用范式的演变
- 卷积神经网络（CNN）
- 循环神经网络（RNN）
- Transformer架构

阶段二：自然语言处理实战

目标： 结合实际场景，掌握NLP技术栈中的任务分类及相关技术。
学习内容：
- BERT的模型结构解析
- BERT预训练方法
- Mask掩码机制：让模型自己做「完形填空」
- 长段落上下文信息增强，预测下一句（NSP训练策略）
- 数据准备： 准备训练数据、基础文本预处理
- 最简单的编码方法：One-Hot
- 词袋表示（N-Grams词袋）
- 基于词频统计的表示方法（TF-IDF）
- 词嵌入（Word2vec、Glove、FastText）
- 可视化词向量
- 实践任务： 手写Word2vec
- 问题定义
- 数据获取方法
- 数据探索(EDA)&数据整理(Wrangling)&预处理(Initial Preprocessing)
- 如何将数据转化成机器可识别的语言？— 特征工程
- 算法的高级艺术：抽象方法和建模策略
- 如何衡量算法模型的好坏？—评估方法及其重要性
- 将自然语言处理算法部署成应用能力
- 实践任务： 数据分析和预处理实战
- 第一个自然语言处理流程
- 文本表示方法
- 预训练模型 - BERT

阶段三：多模态大模型与知识图谱自动化构建

目标： 掌握多模态大模型架构，以及如何利用大模型自动化构建知识图谱。
学习内容：
- 知识图谱Schema建设方案
- 基于大模型的实体识别和关系构建方法
- 基于大模型的输入存储和图谱查询方法
- 自动化迭代策略
- 实践内容：
- 学习如何使用大模型根据行业数据特点帮助简历并完善知识图谱schema
- 学习如何在Prompt中通过ICL增强大模型对任务的理解
- 学习如何通过微调大模型，优化实体识别和关系关系构建效果
- 学习如何让大模型理解知识图谱的总体架构，从而让大模型能够根据用户输入去自动生成数据存储和查询知识图谱的指令
- 如何驱动大模型周期性得评估知识图谱结构的优劣，自动生成优化方案
- 学习如何构建指令模板
- 学习如何微调训练多模态大模型
- 搭建图像要素自动识别和多模态问答demo系统
- 多模态大模型
- 基于大模型的知识图谱自动化构建项目实战

阶段四：企业级大模型应用落地方案 - RAG实战

目标： 从0-1搭建通用性RAG应用框架，并应用于多个行业场景。
学习内容：
- 企业级应用框架设计与实现
- 三个标准流程的抽象与搭建方法（RAG.Chain）
- 灵活的功能组件实现策略（RAG.Module）
- 自定义文档加载器：PDF图文信息增强识别
- 自定义开发文档分割组件：中文段落切分优化方案
- 依赖服务的接入方法：向量数据库、大模型推理服务、embedding、重排序模型
- RAG评估流程搭建
- 基于LangSmith和langfuse搭建RAG流程监控系统
- RAG场景化进阶：基于知识图谱的增强策略（接入现有图谱数据、GraphRAG）
- RAG任务介绍 & 技术发展历程
- RAG依赖哪些组件和能力？（向量数据库、大模型推理服务）
- 模块化RAG系统架构设计 — 从理论到实战
- 主流的（开源）RAG应用开发框架
- RAG生态工具和能力
- 实践内容：

阶段五：Agent项目实战

目标： 掌握Agent技术，应对系统状态变化不可控的复杂场景。
学习内容：
- 学习如何通过Prompt引导Agent进行推理
- 学习Agent推理和验证流程的实现方法
- 学习如何让Agent在合适任务上调用外部能力来增强效果
- 学习如何搭建多Agent系统
- 学习如何解决多跳问题：ReAct的实现方法
- 「人人都是AI开发专家」实践一：基于ModelScope Agent搭建一个应用开发助手
- 「人人都是AI开发专家」实践二：基于Coze搭建一个知识问答机器人
- Agent通用架构介绍
- Agent中的规划（Planning）和推理（Reasoning）能力
- Agent的文本输出和工具调用
- 经典AI Agent案例分析
- ModelScope-Agent项目拆解
- 实践内容：

阶段六：大模型应用算法工程师面试辅导

目标： 提升面试技巧，成功斩获大模型应用算法工程师职位。
学习内容：
- 在企业中的发展路径
- 职业规划：如何快速升职加薪
- 技术层面如何持续性的自我提升
- 优秀简历模板讲解
- 典型简历抽样点评
- 大模型面试知识点整理和分享（八股文）
- 一线互联网大厂的面试流程及侧重点
- 面试技巧分享
- 面试时的几大忌讳
- 面试攻略及指导
- 大模型应用算法工程师的职业规划

人工智能论文PDF合集

切忌贪多嚼不烂。建议从综述性论文入手，了解特定领域的整体情况和关键研究方向。同时，关注奠定大模型基础的经典论文，例如 Transformer 架构的论文。阅读时，精读与泛读结合，对于重要的论文仔细阅读并理解细节，对于其他论文则快速浏览以了解主要思想。务必做好笔记，记录论文的关键信息、创新点和实验结果，方便以后回顾。