ChatMed开源了中文医疗大模型 ChatMedConsult,以中文医疗在线问诊数据集的 50 万+在线问诊+ChatGPT 回复作为训练集,基于 Llama7B 采用 LoRA 微调得到。
一、主要模型及特点
1.ChatMedconsult:
训练数据:基于中文医疗在线问诊数据集的 50 万+在线问诊以及 ChatGPT 的回复作为训练集。在线问诊数据能反映真实的用户问诊需求,但网上回答质量参差不齐,所以借助 ChatGPT 的回复来提高数据质量。
模型基座:主干模型为 Llama7b,融合了 Chinesellamaalpaca 的 LoRA(LowRank Adaptation)权重与中文扩展词表,然后再进行基于 LoRA 的参数高效微调。这样的设计使得模型在处理中文医疗问题时具有更好的适应性和准确性。
2.Shennongtcmllm:这是一个专注于中医药领域的模型。其训练数据为中医药指令数据集,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法,调用 ChatGPT 得到围绕中医药的指令数据,然后以 Llama 为底座,采用 LoRA 微调得到。该模型对于中医药领域的问题解答、知识传承等方面具有重要意义。
二、技术原理
- 基础模型架构
模型底座:ChatMed的基础是预训练的大规模语言模型。例如,其开源版本中的一个模型是以Llama7b作为模型基座。Llama系列模型具有强大的语言理解和生成能力,为ChatMed提供了坚实的基础。选择这样的基础模型可以利用其在大规模文本数据上的学习能力,从而更好地理解和处理中文医疗文本。
中文适配与改进:为了更好地适应中文医疗场景,ChatMed融合了Chinesellamaalpaca的LoRA(LowRank Adaptation)权重与中文扩展词表。这使得模型能够更好地理解中文的语义、语法和表达方式,特别是在医疗领域的专业术语和特定表述方面,提高了模型对中文医疗文本的处理能力。 - 数据收集与预处理:
医疗问诊数据:ChatMed的训练数据包括大量的中文医疗在线问诊数据。这些数据来源于真实的医疗咨询场景,反映了患者的实