- 博客(357)
- 收藏
- 关注
原创 低精度训练一:低精度训练介绍与大模型下载
本文探讨了大模型训练中的显存优化方法及模型下载方案。针对大模型训练面临的显存占用挑战,分析了模型权重、优化器状态、梯度和激活值等主要显存占用源,提出了梯度累积、梯度检查点、参数冻结等优化策略,并重点介绍了通过降低参数精度(如fp16、int8等)来减少显存占用的方法。同时介绍了基于ModelScope平台的大模型下载技术,包括环境配置和利用snapshot_download函数下载模型的代码示例,以及使用transformers库加载本地模型的方法。这些技术为在有限资源下训练和部署大语言模型提供了实用解决方
2025-07-27 18:28:20
42
原创 实战演练2:实战演练之机器阅读理解(上)
本文介绍了机器阅读理解(MRC)任务的基本概念和实现方法。MRC通过让机器回答基于给定文档的问题来测试其自然语言理解能力。文章重点讲解了片段抽取式MRC任务,并详细说明了数据格式、评估指标(EM和F1)以及两种处理长文本的策略(截断和滑动窗口)。随后提供了完整的代码实现流程,包括数据集加载、预处理、模型训练和预测,使用Hugging Face的transformers库和中文MacBERT模型。代码部分展示了如何准确定位答案位置、处理长文本以及训练问答模型,最后通过pipeline实现预测功能。该实战演练为
2025-07-27 18:08:07
21
原创 实战演练1:实战演练之命名实体识别
本文介绍了命名实体识别(NER)任务及其实现方法。NER任务是识别文本中特定意义的实体(如人名、地名等),包括实体边界识别和类别确定。文章详细说明了IOB2、IOBES等标注体系,以及精确率、召回率和F1值等评估指标。通过Python代码示例,展示了使用Hugging Face库加载人民日报NER数据集、预处理数据、构建评估函数、配置训练参数和训练模型的全过程。最后演示了如何使用pipeline进行实体预测,并将结果按实体类别分组输出。整个流程涵盖了从数据准备到模型训练、评估和预测的完整NER实现。
2025-07-27 17:02:13
303
原创 高效微调5:LoRA原理与实战
本文介绍了LoRA(低秩自适应)微调方法及其代码实战。LoRA的核心思想是利用预训练模型内在的低秩特性,通过矩阵分解将权重更新分解为两个小型矩阵(A和B),仅训练这两个低秩矩阵而保持原模型参数不变,从而显著减少训练参数量。文章详细演示了基于HuggingFace的PEFT库和Bloom-1b4-zh模型的LoRA微调流程,包括数据预处理(使用Alpaca-zh指令数据集)、LoRA配置、模型训练与推理。
2025-07-25 10:20:49
21
原创 实战演练11:生成式对话机器人(Bloom)
本文介绍了生成式对话机器人的实现方法。主要内容包括:对话机器人的基本概念和分类,重点介绍生成式问答机器人;预训练语言模型原理,采用因果语言模型的自回归方式;通过指令微调赋予模型问答能力,并讨论了多轮对话的两种损失计算方式;详细展示了基于Bloom模型的代码实现流程,包括数据预处理、模型训练和推理;介绍了常见的解码参数及其作用;最后总结了基于Transformers的NLP解决方案,涵盖理解与生成任务,并规划了参数高效微调和分布式训练等后续内容。
2025-07-24 21:45:53
66
原创 网易大模型算法面经总结第一篇
1. MHA的原理,是如何进行加速的,用的什么框架推理。2. 用过vLLM框架吗? 3. 用过什么数据合成的方法4. PagedAttention原理5. 投机采样是什么,什么情况下用投机采样才能效果好?6. LoRA原理,为什么可以低秩微调,rank和阿尔法调参经验,和数据量有关系吗7. PPO原理,为什么需要DPO8. MoE原理,具体怎么实现
2025-07-24 18:31:34
253
原创 实战演练—基于Transformers的NLP解决方案总结
本文总结了基于Transformers的NLP解决方案核心组件及应用流程。核心组件包括Pipeline(推理流水线)、Tokenizer(文本预处理)、Model(模型管理)、Datasets(数据处理)、Evaluate(评估)和Trainer(训练器)。以文本分类为例,详细介绍了从数据加载到模型预测的10个标准步骤。重点探讨了显存优化策略,通过梯度累积、检查点、Adafactor优化器、参数冻结和序列截断等方法,将BERT-Large模型在4G显存设备上的训练显存占用从15.2G降至3.4G,同时对比了
2025-07-24 15:06:00
178
原创 Transformers基础组件—Trainer
本文介绍了使用Hugging Face Transformers库进行文本分类任务的全流程实现。首先导入必要的库并加载数据集,进行数据预处理和划分。接着使用rbt3预训练模型初始化分类器,定义评估指标(准确率和F1分数)。然后配置训练参数,包括batch大小、学习率等,并创建Trainer对象进行模型训练。最后展示了模型预测功能,可将文本分类为"好评"或"差评"。整个过程涵盖了从数据准备到模型训练、评估和预测的完整流程,展示了如何使用Transformers库高效实现
2025-07-22 16:07:29
277
原创 Transformers基础组件—Evaluate
本文介绍了HuggingFace Evaluate库的使用方法及文本分类实例。主要内容包括:1)评估函数的使用指南,涵盖加载函数、查看说明、全局/迭代计算、多指标组合和可视化对比;2)文本分类实战演示,从数据加载、预处理、模型训练到评估预测的全流程。通过具体代码示例展示了如何利用Evaluate库高效完成模型评估任务,并实现了一个基于预训练模型的中文情感分类应用。该指南为NLP开发者提供了评估工具的标准使用范式和项目实践参考。
2025-07-22 15:44:11
100
原创 Transformers基础组件—Datasets
本文介绍了HuggingFace的datasets库使用方法,包括加载在线数据集(如madao33/new-title-chinese)、查看数据集结构和划分、数据选取与过滤、映射处理等操作。同时讲解了本地数据集的加载方式,支持csv、json等格式,并演示了如何结合DataCollator进行批处理。该库提供了便捷的API,支持数据预处理、划分和保存,适用于大模型学习任务的数据准备。
2025-07-21 18:24:31
137
原创 HuggingFace基础知识和环境安装
官方网址:https:/huggingface.co/HuggingFace出品,当下最热、最常使用的自然语言处理工具包之一,不夸张的说甚至没有之一实现了大量的基于Transformer架构的主流预训练模型,不局限于自然语言处理模型,还包括图像、音频以及多模态的模型提供了海量的预训练模型与数据集,同时支持用户自行传,社区完善,文档全面,三两行代码便可快速实现模型训练推理,上手简单一句话总结:学就对了。
2025-07-20 08:59:33
178
原创 第11课:Tiled Diffusion&VAE高分辨率放大应用
本文介绍了Tiled Diffusion技术的原理和操作方法,旨在降低显存负担并提高图像生成效率。通过分区块绘制并拼接图像,Tiled Diffusion与VAE协同工作,优化显存使用。文章提供了不同的宽高设置方案、进阶参数和懒人设置攻略,帮助用户在显存不足时优化图像生成过程。此外,Tiled Diffusion还支持超高分辨率生成。开启高清修复和使用放大算法R-ESRGAN 4x+ Animer6B,可以生成高分辨率图像,调整放大倍数和重绘幅度以平衡图像质量与生成时间。
2025-04-06 16:28:14
419
原创 第十课:ControlNet原理及应用
本文介绍了ControlNet的基本原理、安装与使用方法,以及其五大模型的应用。首先,文章简要概述了ControlNet的基本原理,说明其通过附加信息来控制扩散模型的生成过程。ControlNet利用Annotator从图片中提取有用信息,并在其指导下生成图片作品。接下来,文章详细描述了ControlNet的安装和使用过程,包括下载插件和模型、放置文件、设置控制参数等步骤。通过选择合适的预处理器和控制模型,用户可以调整ControlNet的效果,控制图像生成的强度和精度等内容。
2025-04-06 15:19:47
572
1
原创 第九课:LoRA模型的原理及应用
本文介绍了LoRA(Low-Rank Adaptation)在图像生成中的应用,主要分为两部分。首先,文章讲解了三种LoRA的使用方式,包括将LoRA模型作为提示词输入、通过拓展网络应用LoRA模型,以及在Additional Networks中可视化LoRA模型和权重的设置。接着,文章介绍了LoRA的五种应用方向,涵盖了人物角色形象、画风风格、概念艺术、服饰设计及特定元素的应用。每种应用都有具体的实现方法和技巧,帮助用户通过LoRA实现更精细的图像生成与微调。
2025-04-05 17:56:56
281
原创 第七课:局部重绘的应用
本文主要介绍了局部重绘、绘制功能以及上传蒙版的应用。局部重绘可以在保持画面其余部分不变的情况下,修正某些特定区域,如调整眼睛的闭合状态。通过使用蒙版,可以限定处理区域,重绘时对黑色部分进行修复,而非蒙版区域则不会受到影响。绘制功能则增强了局部重绘的可塑性,用户可以使用画笔工具涂抹蒙版并加入提示词进行调整,特别是在使用数位板时更为便捷。上传蒙版功能允许用户通过PS等软件自定义蒙版区域,上传后仅对特定部分进行重绘,进一步提升了图像编辑的精准度和灵活性。
2025-04-04 13:43:20
99
原创 第六课:AI绘画进阶模型
本文主要讲解了文本嵌入(Embeddings)、低秩模型(LoRa)和超网络(Hypernetwork)在AI图像生成中的应用。文本嵌入通过嵌入式向量提高检索效率,用户可以下载.pt文件并将其放入指定文件夹,在提示词中加入触发词来调用。低秩模型(LoRa)帮助AI传递某一特定特征,类似字典中的彩页,向AI提供清晰的形象描述,并通过在模型文件夹中放置相关文件及在提示词中调用来应用。超网络则通过改善图像的整体风格,类似小卡片,可以替代部分LoRa的功能,用户将其加入到设置中的附加网络并在提示词中使用。
2025-04-04 12:36:14
210
原创 第五课:高清修复和放大算法
本文主要介绍了图像分辨率修复和放大的不同技术方法。首先,高清修复(Hi-Res Fix)通过低分辨率生成图像后进行高分辨率修复,采用特定的放大算法(如R-ESRGAN)来提高图像质量,设置合适的重绘幅度可以避免边缘模糊或多人头等问题。其次,SD放大(SD Upscale)通过导入低分辨率图片进行图生图操作,调整分辨率和重绘幅度,选择合适的放大算法进行图像放大。此外,还介绍了附加功能放大方法,提供了在生成图像后通过设置不同放大倍率和算法进行进一步放大的方式。
2025-04-03 23:41:44
208
原创 第四课:模型的概念及应用
这部分主要介绍了模型文件的基础结构、VAE的作用、以及不同平台和资源(如Hugging Face、Civitai、LiblibAI)用于下载模型的方式,还提到了各种模型类型及其相关的提示词和关键词。
2025-04-03 18:34:12
444
原创 第三课:Stable Diffusion图生图入门及应用
这篇文章讲述了图生图的基本原理,图生图的基本流程和注意事项,解析了随机种子的作用,并且举了几个图生图的拓展应用案例。
2025-03-26 22:32:35
256
原创 第二课:文生图入门与提示词基础
文章介绍了文生图入门与提示词基础知识,Part01部分讲了提示词的分类和书写技巧,Part02讲了权重的相关知识和负向提示词模板,Part03写了出图的参数该如何设置和一些设置规范,Part04讲了一下新手如何写提示词能够高效快速的生成自己想要的图片。
2025-03-26 13:34:32
156
原创 第一课:Stable Diffusion | Web UI初了解
文章介绍了Stable Diffusion的入门知识,包括:Part01 基本原理,Part02 工具与配置,Part03软件安装,Part04小试牛刀,Part05保存和导出。
2025-03-24 23:28:23
646
原创 四非人的保研之路,2024(2025届)四非计算机的保研经验分享(西南交通、苏大nlp、西电、北邮、山软、山计、电科、厦大等)
本身我就是福建人,xmu 3小时就能到家,然后导这边毕业要求容易,不想读博,达到要求就能放实习,每周打卡35h,比较自由,遂考虑。北邮弱com,联系了蛮多老师,几乎都给了考核机会,面试的老师好几位都考核人工智能基础,会问你卷积的计算,问的还是蛮细的。当时结果是暂定,以为是稳了,遂没联系其他老师,但是之后询问发现只是候补,懒得联系其他老师,928候补到,放弃。东北大学,2000人大机试,入营点送,全国巡回面试,每个人就面不到10分钟,我就被问了3个问题就结束了,候补。科研组,导师有人脉,想读博出成果可以去。
2024-09-29 10:43:01
3099
6
原创 四非、双非计算机保研夏令营入营情况
厦大 信息学院,电影学院,CS,人工智能浙软(海营,预推免入场券)、工程师华东科技大学网安中国科学技术大学 先进技术研究院,空间应用工程与技术中心,信工所,软件所,计算与网络中心,计算技术研究所北京师范大学 认知神经科学与学习国家重点实验室山东大学 网络空间与安全学院,SE天津大学 智能与计算机学部华中师范大学 计算机学院、大数据北航计算机南开计算机,SE吉大计算机、SE、人工智能湖南信息山大计院(不发offer),网安成电计算机,网安。
2024-05-19 21:30:48
3130
1
原创 数组邻接表+堆优化版dijkstra+蓝桥杯2022年第十三届决赛真题-出差
思路:稀疏图用邻接表存储,时间复杂度mlogn,单源点最短路径,可以把隔离时间单独存储或存储在边权上。接下来 m 行每行包含三个整数 x,y,z,表示存在一条从点 x 到点 y 的有向边,边长为 z。请你求出 1 号点到 n 号点的最短距离,如果无法从 1 号点走到 n 号点,则输出 −1。给定一个 n 个点 m 条边的有向图,图中可能存在重边和自环,所有边权均为非负值。数据保证:如果最短路存在,则最短路的长度不超过 109。输出一个整数,表示 1 号点到 n 号点的最短距离。判断用哪种存图方式更快。
2024-05-04 12:34:49
792
原创 我的创作纪念日
在我生活的某个阶段,我开始意识到,将日常的学习点滴记录下来,不仅仅是为了自我回顾,更是为了见证自己成长的每一步。这篇文章,不仅为我带来了1.4万的阅读量,更让我深刻体会到了分享知识的价值。它们代表着我的努力得到了更多人的关注和认可。更让我感到欣慰的是,身边越来越多的同学开始因为我的博文而认识我。他们通过我的文章,了解了我的学习方法和思考方式,也从中获得了启发和帮助。我相信,通过不断的分享和创作,我能够不断积累经验和知识,不断提高自己的能力和水平。
2024-05-04 10:11:27
514
2
基于 Java SpringBoot 的项目初始模板,整合了常用框架和主流业务的示例代码
2025-02-02
标题:基于语音识别和命令处理的智能助手系统
2025-02-02
基于OpenCV的人脸识别系统
2025-02-02
《uniapp实战:从零开始构建多端电商应用》
2025-03-10
深度学习实战:TensorFlow 2.0 图像识别与自然语言处理项目案例
2025-03-10
《深度学习实践:从零开始构建图像识别模型》
2025-03-10
《软考信息系统项目管理师备考指南与实战案例》
2025-03-10
两位二进制加法器硬件项目
2025-02-14
项目介绍:计算机考证攻略
2025-02-14
项目介绍:机器人控制系统与路径识别
2025-02-14
使用汇编语言编写一个简单的加法器
2025-02-14
项目介绍:图像识别(使用CNN)
2025-02-14
本项目包含野火EBF6ULL S1、Pro及Mini板子的硬件资料, 包括原理图、机械尺寸、装配图、封装库、引脚分配表等
2025-02-03
季节 UI Season UI 这是一个用 Vue2 搭建的 UI 框架,框架提供了春、夏、秋、冬四种季节主题样式!
2025-02-03
蓝桥杯 lanqiaobei 该仓库为蓝桥杯比赛相关资料 包含单片机常用模块驱动 资料说明 资料内容 历年省赛,国赛试题,以及源程序 比赛常用驱动
2025-02-03
CSDN创作者等级怎么升四级啊
2025-02-04
数据库业务开发问题,数据库业务开发问题
2023-05-13
安卓实际业务开发情况,安卓实际业务开发情况
2023-05-13
Kotlin 简单语法问题
2022-10-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人