XTuner
文章平均质量分 90
努力努力再努力呐
努力努力再努力
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大模型微调分布式训练】LLama Factory与Xtuner分布式微调大模型
2.1 DeepSpeed概述定位:微软开源的分布式训练优化框架,支持千亿参数模型训练。核心目标:降低大模型训练成本,提升显存和计算效率。集成生态:与PyTorch无缝兼容,支持Hugging Face Transformers库。2.2 核心技术原理:通过分片优化器状态、梯度、参数,消除数据并行中的显存冗余。阶段划分:ZeRO-1:优化器状态分片。ZeRO-2:梯度分片 + 优化器状态分片。ZeRO-3:参数分片 + 梯度分片 + 优化器状态分片。原创 2025-04-10 11:38:17 · 1383 阅读 · 0 评论 -
XTuner学习
XTuner:大模型微调的高效实战工具一、核心定位与技术亮点1. 产品定位XTuner是由上海人工智能实验室(Shanghai AI Lab)开发的一款开源大模型微调工具库,专注于降低大语言模型(LLM)和多模态模型(VLM)微调的门槛。其设计目标是让开发者在有限硬件资源(如单卡8GB显存)下,也能高效完成模型优化,支持从训练到部署的全流程。2. 技术优势硬件适配性强单卡8GB显存即可微调70亿参数(7B)模型,支持多节点扩展至700亿参数以上模型。原创 2025-04-10 11:37:04 · 1561 阅读 · 0 评论
分享