自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

datayx的文章

有内容有料

  • 博客(1176)
  • 资源 (23)
  • 收藏
  • 关注

转载 Distilabel DeepSeek-R1 模型蒸馏教程

其核心思想是,利用一个能力更强的“教师模型”(如 DeepSeek-R1),来“教导”一个更小、更易于部署的“学生模型”(如 Qwen3-4B)。QLoRA 并不直接微调或修改已量化和冻结的庞大模型权重参数,而是在模型的关键层(如 Transformer 的注意力层)旁路插入两个可训练的低秩适配器矩阵(Adapter)。通过这种方式,QLoRA 实现了“在冻结的、低精度的模型上,进行高精度的、小规模的训练”,在保持与全量微调几乎相当性能的同时,将硬件门槛降到了前所未有的低度。这极大地提升了数据准备的效率。

2025-07-24 11:01:16 1

转载 多模态情感分析——基于多尺度自适应跨模态注意力融合(MACAF)的三模态情感分析

第二种,负类和正类的范围分别为[-3,0)和(0,3]。在本设计中,首先采用了Transformer模块分别对文本、音频和图像特征进行特征编码,然后将通过文本在多个尺度上的特征对图像、音频进行自适应注意力交互,最后将通过交叉注意力进行特征融合。CMU-MOSI、CMU-MOSEI和CH-SIMS数据集的模态有3种(语言,视觉,声音),数据集使用的是未对齐原始raw数据特征。交叉注意力融合模块:通过交叉注意力对模态特征进行融合,将高尺度特征作为Q向量,将经过多尺度自适应注意力模块的特征作为K和V向量。

2025-07-23 10:50:21 18

转载 【医学影像分割】UN-SAM:一种高效且通用的细胞核分割模型

图中用不同颜色标识了可训练(Trainable,橙色火焰标识 )、冻结(Frozen,蓝色雪花标识 )、循环内(In - loop,绿色锁标识 )和阻塞(Blocked,红色锁标识 )的部分。其中一些层的参数是冻结的,不参与训练,而部分是可训练的。本文提出了一种名为UN-SAM的领域自适应自提示分割框架,用于通用细胞核图像分割,旨在解决数字病理学中细胞核分割面临的组织类型、染色方案和成像条件多样性的挑战,同时避免传统方法对人工标注提示的依赖,提升模型在不同领域的泛化能力。

2025-07-10 10:47:02 119

转载 小目标检测难点分析和解决策略

除此之外,还有其他基于绝对尺度的定义,例如在航拍图像数据集 DOTA和人脸检测数据集 Wider Face 中,其中像素值范围在 [10,50] 之间的物体被定义为小物体物体,在 Tiny Person 数据集中,小物体被定义为像素值范围在 [20,32] 之间的物体。随着神经网络深度的增加,每一层的感受野逐渐增大,能够感知更大尺度的目标和上下文信息(此时适合分类,不适合检测),但同时图像分辨率降低,导致细节语义信息的丢失,从而影响小目标检测的准确性。以下是几种常见的改进特征融合策略。

2025-07-08 10:25:33 80

转载 医学影像数据集汇总(持续更新)150个

UW-Madison GI Tract Image Segmentation (2D, MRI, 38496例, 3类胃肠道分割)SUN Colonoscopy Video (2D, Endoscopy, 158,690例, 1类息肉分割)EAD 2019 (2D, Endoscopy, 2991例, 7类食管, 结肠,胃, 膀胱, 肝脏分割)Kvasir-Capsule (2D, Endoscopy, 4741504例, 14类消化道病变分割)

2025-07-07 10:40:58 82

转载 一种基于滑动层合并的高效深度修剪大模型的方法

在此基础上,我们提出了一种滑动层合并方法 sliding layer merging method,该方法根据预定义的相似度阈值从上到下动态地选择和融合连续层 consecutive layers,从而在保持模型性能的同时简化了模型结构。在不同体系结构和不同参数尺度的llm上进行的大量实验表明,我们的方法在zero-shot 推理性能和修剪后的再训练恢复质量方面都优于现有的修剪技术。实验结果表明,我们的方法在资源受限环境下显著加快了推理速度,并且在零采样任务上优于现有的剪枝技术。第一次见论文写这个节的欸。

2025-07-04 10:45:52 54

转载 模型压缩与量化:让大模型走向轻量化落地

通过模型压缩与量化,我们可以在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,从而实现大模型在边缘设备上的高效部署。通过减少模型的参数数量和计算复杂度,这一技术使得大模型能够在资源受限的环境中高效运行。未来,随着算法和硬件的不断进步,模型压缩与量化将在更多领域发挥重要作用。模型压缩的目标是通过减少模型的参数数量或优化模型结构,降低模型的复杂度和计算需求。稀疏计算硬件支持:随着稀疏计算技术的发展,硬件厂商可以为剪枝后的模型提供更好的支持。知识蒸馏的核心思想是将大模型的知识迁移到一个更小的学生模型中。

2025-07-03 10:41:12 73

转载 清华大学《AI赋能教育 :高考志愿填报工具使用指南》

,为广大考生提供了一种全新的参考路径。教程通过深入浅出的语言,介绍了AI辅助决策的基本原理和使用方法,帮助大家理解背后的逻辑,而不是盲信“智能推荐”。而“怎么填”却常常比“考得好”更难:分数能上哪儿?如果你正在为志愿填报迷茫,不妨读一读这本指南——它不教你“押题”,但能教你如何用技术和理性做出更接近理想的选择。一次合理的志愿填报,可能决定了未来四年所学的专业、所处的城市、遇到的人,甚至影响一生的发展路径。马上到了高考填报志愿的时候,填报志愿对于高考生的重要性很多时候比高考本身更加关键,正所谓“

2025-07-02 08:23:36 65

转载 【模型高效部署】tensorrtx 深度解读,yolov11高性能推理实战案例

它提供了多种常用深度学习模型(主要涵盖 目标检测、图像分割、分类 等)的 TensorRT 推理实现示例。这些示例可以帮助开发者把在 PyTorch、TensorFlow 等深度学习框架下训练好的模型,快速转换并部署到 TensorRT 中,从而获得 低延迟、高吞吐量 的推理性能。每个模型都对应一个独立的文件夹和项目配置,涵盖 模型转换(通常是 .pth / .onnx → TensorRT engine)、推理代码、后处理 等完整流程。转换前,这里需要根据自己的模型,修改对应的配置,配置文件在以下位置。

2025-07-01 10:39:37 52

转载 使用 DeepSeek R1 和 Ollama 开发 RAG 系统

在这篇文章中,我们将探究性能上可与 OpenAI 的 o1 相媲美、但成本却低 95% 的 DeepSeek R1,如何为你的检索增强生成(RAG)系统带来强大助力。通过将语言模型与和 FAISS 索引绑定的检索器相结合,任何通过该链发起的查询都会从 PDF 内容中查找相关上下文,从而让答案有原始材料作为依据。这就是检索增强生成(RAG)设计的核心所在,它为大语言模型提供经过验证的上下文信息,而非让其单纯依赖自身的内部训练数据。提示:更大的模型(例如 70B)提供更好的推理能力,但需要更多的 RAM。

2025-06-30 10:20:52 50

转载 如何实现RAG与MCP集成

这一创新架构赋予 AI 研究员般的探索力、助手级的执行力与分析师的洞察力,不仅实现海量信息的高效调用,更能智能判断知识应用场景与时机,让 AI 真正成为兼具专业性与实用性的智能伙伴,开启智能交互的全新可能。针对数据的不同特性,需采用差异化的更新策略。其核心局限在于信息检索的单一性与被动性:多数传统 RAG 系统仅能对接单个数据源,且采用 “单次检索 - 直接应用” 的简单逻辑 —— 一旦初始检索结果不佳,或用户查询表述模糊、偏离常规语义模式,模型生成的答案质量将严重下滑,难以满足复杂场景下的精准需求。

2025-06-29 19:02:29 51

转载 GoT-R1,多模态大模型有救了!!

最近,香港大学MMLab、香港中文大学MMLab和商汤科技的研究团队在Generation Chain-of-Thought(GoT)框架的基础上,推出了。它能超越预设模板的束缚,主动探索最优解,精准捕捉复杂指令中的空间关系、多对象属性和组合逻辑,真正实现“所想即所得”的视觉生成。最适合的学习路径,助您快速掌握各类计算机sci论文以及sci论文的核心技能,轻松发表高质量SCI论文!从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿的一站式科研服务。GoT-R1,剑指多模态生成的终极难题!

2025-06-26 10:28:50 33

转载 仅499页!吃透大语言大模型

在一键写作中,采用步骤式写作流程,从选题构思到论文成稿,为你提供清晰指引,智能编辑功能自动纠错润色,优化行文逻辑,半小时完成万字文献综述。大模型作为新兴而迅速发展的技术,已跨越至多模态领域,涵盖语言、语音、视觉等,并细化为通用、行业及任务特定模型等,无论你目标是CCF-A/B/C、SCI1-4区,还是EI会议,这些 “大牛导师” 都从选题、调研、idea验证、代码、实验、润色、投稿、直至中稿一站式科研服务。,推荐到实验室实习;,我们会根据你的情况给你做详细的介绍,以及如何帮助你达到你的目标。

2025-06-20 10:11:11 43

转载 具身智能行业有多缺人?

工业机器人在传统制造业和新兴产业中的应用不断深化,市场规模持续扩大,服务机器人市场迎来高速增长期,而ATM框架通过预训练一个轨迹模型来预测视频帧中任意点的未来轨迹,并利用这些轨迹作为子目标来指导策略学习。,该框架通过预训练轨迹模型来预测视频帧中任意点的未来轨迹,并利用这些轨迹为机器人策略学习提供有效指导。的毕业生在就业市场上具有较高的起点薪资,并且随着经验的积累,薪资增长潜力巨大。轨迹引导策略:通过预测的轨迹作为子目标,简化策略学习问题,提高数据效率。学术界、工业界、投资界等丰富的connection,

2025-06-19 10:35:30 551

转载 月薪已炒到6W?强烈建议大家冲一冲这个新兴领域

是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,!制造、医疗、金融等各行业都在加速AI应用落地,未来企业更看重能用AI大模型技术重构业务流的技术人。老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。课程开班58期,已为20000+学员服务,口碑爆棚,从!

2025-06-10 10:03:46 403

转载 大模型 Token 究竟是啥:图解大模型Token

大模型之所以能理解和生成文本,就是通过计算这些 Token 之间的关系,来预测下一个最可能出现的 Token。大模型在输出文字的时候,也是一个 Token 一个 Token 的往外蹦,所以看起来可能有点像在打字一样。分得越合理,大模型就越轻松。这就好比餐厅里负责切菜的切配工,它的刀功越好,主厨做起菜来当然就越省事。而大脑🧠之所以要这么做,是因为这样可以节省脑力,咱们的大脑还是非常懂得偷懒的。另外,正如前面提到的,不同模型的分词器可能会有不同的切分结果。” 这句话,如果一个字一个字的去处理,一共需要有。

2025-06-05 10:01:33 142

转载 一文彻底搞懂 MCP:AI 大模型的标准化工具箱

向AI转型的程序员都关注公众号 机器学习AI算法工程。数据能够通过 MCP 服务传输到 AI 中。深度学习、机器学习、数据分析、python。在日常工作和学习中,我们经常需要与。大家请注意,我的插画中的箭头都是从。AI 可以直接访问 MCP 服务。Function Call 标准。,以便进行对话时的数据流向。AI 大模型的标准化工具箱。大模型可以通过这些工具与。AI 和外部工具之间的桥梁。标准输入输出(stdio)是整合了之前各大模型不同的。访问和操作这些外部工具。在接收到请求后,会通过。

2025-05-31 10:33:27 217

转载 可解释性杀疯了!结合机器学习,发顶会轻轻松松!

文章针对大规模马尔可夫决策过程(MDPs)中优化可解释策略计算难题,改进单调策略迭代算法(MPI),提出 MMPI 算法,研究不同状态排序规则对其影响,并通过实验对比分析,为求解可解释策略提供参考。文章围绕机器学习可解释性方法展开,对相关概念进行阐述,提出分类体系,从多方面分析各类方法并给出代码实现链接,探讨该领域现状与未来发展方向。这些成果不仅提高了模型的预测性能,还通过增强可解释性,让复杂的机器学习模型变得更加透明,为实际应用提供了有力支持。公平性研究进展大,但在非表格数据方面仍有欠缺。

2025-05-26 10:01:29 113

转载 大模型又爆了...

随着该模型在ChatGPT Plus和Team用户中的推广,OpenAI计划逐步扩大其应用范围,并为更多用户提供体验其强大推理能力的机会。GPT-o1的出现不仅丰富了人工智能在各领域中的应用场景,也为未来AI的发展奠定了基础,这两年,人工智能领域中的AI大模型技术取得了迅猛的进展。随着多模态能力、长程推理能力和智能体的发展,AI大模型的研究和应用将迎来新的突破。借助于庞大的数据集和强大的计算资源,这些大型模型达到了前所未有的精确度和创造力,另外在工业应用方面,具备大模型技术的专业人才在市场上。

2025-05-20 10:04:31 42

转载 新手入门 | 搭建 AI 模型开发环境

Linux 可参考该链接安装:https://learn.microsoft.com/zh-CN/azure/virtual-machines/linux/n-series-driver-setup。NVIDIA 显卡有多个系列,常用的有 Tensor 和 GeForce RTX 系列,两类显卡的驱动安装方式不一样,下面的章节会单独介绍如何安装驱动。下打开安装包,根据提示操作安装即可,简洁安装会安装 C 盘,高级安装可以自定义安装位置,建议使用简洁安装,以免出现额外情况。

2025-05-16 10:03:40 149

转载 人工智能领域顶级赛事,免费数据库还能直接发论文,他因为这个直博了....

中创蓝 Kaggle 竞赛与科研辅导服务,能帮助学员深入理解竞赛规则、掌握数据分析与建模技巧、提升代码优化能力,并学会将竞赛成果转化为科研项目。“我们有位学员原本只是一名普通的研究生,参加了我们的Kaggle竞赛辅导后,成功在一场金融风控竞赛中进入Top 5%。Kaggle竞赛提供的是真实的数据和业务场景,参与竞赛不仅能锻炼你的代码能力,更能让你学会如何解决实际问题。参赛者可共享代码,便于科研人员学习借鉴,加速科研项目的推进,如果获得奖牌,直接用kaggle竞赛经历充当实验过程,转化为论文成果。

2025-04-30 10:46:47 155

转载 文心快码Coding智能体Zulu来了:会说话就能编程 、图片秒变代码,复杂需求全流程开发分分钟搞定

2025年,Agent智能体爆发,Coding Agent代码智能体已是最火、最快落地的赛道,改写着软件开发的范式,像Cursor、文心快码这样的AI编程工具,成为编程效率提升的“杀手锏”。“增加支付”需求,Zulu可以自动分析整个工程,无需指定也能找到相关实现,会参考原文件的实现方式,自动创建多个接口和实现类文件并生成代码,并对所做工作做详细的总结,查缺补漏。当前,编程已进入‘智能驾驶’时代,它能听懂你的业务需求,能自动生成代码,能自主编写测试用例,能端到端生成完整的应用,甚至都不用你看代码懂代码。

2025-04-28 09:01:56 257

转载 大模型开发实战,使用 LLaMA Factory 微调与量化模型并部署至 Ollama

它支持从预训练到指令微调、强化学习、多模态训练等全流程操作,并提供灵活的配置选项和高效的资源管理能力,适合开发者快速定制化模型以适应特定应用场景。秩越大,引入的可训练参数越多,模型对新数据的适应能力越强,但也增加了计算和内存的需求,可能导致过拟合。秩越小,引入的可训练参数较少,减少了计算和内存的需求,但可能不足以充分适应新数据,影响模型性能。Supervised Fine-Tuning:监督微调是最常见的微调方法,使用标注好的数据对预训练模型进行进一步训练,以适应特定任务(如分类、问答等)。

2025-04-23 10:48:34 172

转载 中科院2025分区表更新:科研人的避坑指南与投稿新思路

无论您是首次发文,还是希望提升科研水平,我们都将为您量身打造最适合的学习路径,助您快速掌握各类计算机sci论文以及sci论文的核心技能,轻松发表高质量SCI论文!对于指定区位的学员,不仅仅是交付初稿,被拒稿被退稿我们提供维护服务,直至中稿!除了个人科研成绩突出,更有丰富的论文辅导经验,不仅自己能写出顶会一作,更指导出多名发独立一作论文的学生,满足人工智能各个方向的辅导需求!大咖导师不仅给你带来学术上的指导,不少导师还有学术界、工业界、投资界等丰富的connection,助力你实现科研梦想。

2025-04-17 10:46:35 1984

转载 大模型高效压缩新方案!ICLR 2025最新收录!

科研为本,质量为先!这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。【招收学生方向】计算机视觉,自然语言处理,高效模型压缩算法,多模态大语言模型,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理,深度学习全栈研究。多家公司担任算法研究员,并进行计算机视觉,高效模型压缩算法,多模态大语言模型的研究,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理。

2025-04-15 10:16:55 144

转载 基于大模型的 RAG 核心开发——详细介绍 DeepSeek R1 本地化部署流程

它包括了 DeepSeek R1 / DeepSeek V3 / DeepSeek Coder V2 / DeepSeek VL / DeepSeek V2 / DeepSeek Coder / DeepSeek Math / DeepSeek LLM 等多个不同的模型,以适应不同领域的应用。私人开发者可以下载 DeepSeek R1 检心框架进行调试,如果企业调用 DeepSeek 的 API 接口,也需要按 token 收费,然而费用不到 ChatGDP 的十分之一,对企业来说是相当有良心。

2025-04-11 10:18:14 109

转载 YOLOv8+ Deepsort+Pyqt5车速检测系统

其高效的检测与跟踪能力、友好的用户界面以及强大的扩展性,使其成为智慧城市建设和智能交通发展的重要工具。级联匹配:DeepSORT中的级联匹配是一种特殊的机制,它首先尝试将检测结果与高置信度的轨迹进行匹配,然后再与低置信度的轨迹进行匹配。DeepSORT算法的核心在于其对目标的外观特征和运动特征的联合使用,以及对目标匹配问题的优化处理。该算法通过融合目标检测的结果,结合匈牙利算法和卡尔曼滤波等技术,实现对多个目标的持续跟踪。轨迹管理:DeepSORT维护每个目标的轨迹,并对新检测到的目标初始化新的轨迹。

2025-04-09 10:16:59 198

转载 目标检测10年,改进YOLO还是DETR?

这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。尤其是目标检测、目标跟踪、图像分割,以及点云、多模态、模型轻量化和部署方向,一线项目经历丰富,具备高水平的Python、Pytorch等开发能力。计算机视觉,自然语言处理,高效模型压缩算法,多模态大语言模型,包括模型量化,剪枝,蒸馏,编译以及高效稀疏化训练与推理。,包括前沿论文精讲和代码演示,已有5000+人观看!

2025-04-08 10:38:20 68

转载 OCR+AI双引擎驱动:手把手教学构建智能财报分析系统

金融行业对精确的财报分析有着强烈的需求。这正是DeepSeek R1的强项,作为一款基于AI的财务分析工具,DeepSeek能够基于提取的数据自动进行深度分析,识别出财务报表中的关键风险、亮点和估值建议,帮助决策者做出明智的选择。通过合合信息TextIn的自动化文档解析与DeepSeek的财务分析,制造业能够迅速获取财报中的核心数据,识别财务风险,并优化资源配置,提高运营效率。TextIn的通用文档解析功能,特别适用于PDF格式的财报文件,通过高度优化的算法,它可以高效地从扫描的财务报表中提取关键信息。

2025-04-07 11:01:20 133

原创 YOLO12替换卷积 | AAAI 2025 | 风车形卷积(PConv)增强微弱小目标特征提取,显著增加接受野

Pinwheel-shaped Convolution(PConv)是一种新颖的卷积模块,旨在更好地与红外小目标的像素高斯空间分布对齐,增强特征提取能力,并显著增加感受野,同时只引入最小的参数增加。在SIRST-UAVB数据集上,PConv(4,3)配置提供了最佳和最平衡的性能提升,表明对于小目标,增加PConv核长度并不会带来额外的性能增益。在MSHNet分割模型中,PConv显著优于其他卷积模块,表明PConv核长度为4的配置在第一层提供了更有效的感受野,对于捕获小目标特征至关重要。

2025-03-29 10:28:23 1215

转载 定制化训练DeepSeek模型:LoAR、COT推理与SFT技术应用

PEFT 包含了 LoRA 的实现,并且它使得你能够通过修改模型的一部分参数来进行高效微调,从而不需要调整整个模型的权重。:模型参数量相对较小(如 7B、13B、33B、65B),但通过高质量数据和训练方法,性能接近甚至超越更大的模型。: 当前训练的损失为14435.37,表明模型的表现尚不理想,通常需要更多的训练来降低损失。适用于各种 NLP 任务,尤其是在生成、问答、文本分类等任务中,具有较好的性能和效率。:Qwen 系列模型通常对中文有较好的支持,同时在英文和多语言任务上也有不错的表现。

2025-03-28 10:12:58 143

转载 基于YOLOv8n + OC-SORT + CRCM算法的百香果产量估算

为了验证这些方法的有效性,建立了一个真实世界的百香果视频数据集,其中包括24个视频,每个视频的长度为1分钟。在测试集上的检测结果中,YOLOv8n探测器在YOLOv5n、YOLOv7和YOLOv8n三种探测器中取得了最好的效果,[email protected] (mean Average Precision)达到86.3%,模型大小仅为6.2 MB。综上所述,YOLOv8n + OC-SORT + CRCM算法有效解决了错误识别、小果漏检、重复计数等问题,实现了对百香果产量的稳定、实时、准确估计。笔记、代码清晰易懂!

2025-03-25 10:21:04 136

转载 YOLO12改进-引入​多维协作注意力MCAM 抗背景干扰,增强多尺度、小目标

其本质是让模型同时回答三个问题:“哪些特征重要”(通道维度)、“重要特征在垂直方向的位置”(高度维度)、“重要特征在水平方向的位置”(宽度维度),并将三者动态融合。例如,原始特征维度为“通道×高度×宽度”(如64×224×224),旋转后变为“高度×通道×宽度”(224×64×224),此时每个“伪通道”对应原始图像的一行像素。通过旋转操作将宽度维度转换为“伪通道”,例如原始特征变为“宽度×高度×通道”(224×224×64),每个“伪通道”对应原始图像的一列像素。

2025-03-24 10:16:41 304 1

转载 大语言模型低成本微调方法

QLoRA的双重量化就是对这个量化常数再做一次8bit的量化,在进行量化常数的量化时,QLoRA以每256个量化常数为一组再做一次量化。因此它额外增加的内存消耗有两部分组成,一部分是量化后的8bit的第一层的量化常数,第二部分是为量化常数做量化的第二层的32bit的量化常数。在神经网络中,预训练的权重通常具有零中心的正态分布,标准差为σ。PortLLM提供了一种无需训练的框架,这个框架基于最初的预训练模型进行微调以获得微调后的参数变化(模型补丁),并将模型补丁应用于后续更新的预训练模型以节约微调成本。

2025-03-17 22:29:31 99

转载 基于大语言模型的知识蒸馏

一句话解释:知识蒸馏是一种模型压缩技术(model compression technique),通过让小模型(学生模型)学习大模型(教师模型)的输出或中间表示,以在保持精度的同时减少计算量和存储需求。GAN中的鉴别器(discriminator)估计样本来自训练数据分布的概率,也就是找出数据中的假数据,而生成器(generator)试图使用生成的数据样本欺骗鉴别器,也就是生成更逼真于数据集的数据。②.选择种子知识作为输入(种子知识通常包括与教师LLM的引出技能或领域知识相关的小数据集或特定数据线索)。

2025-03-14 10:11:13 114

转载 开箱即用,小时级部署,手把手教你构建DeepSeek-V3推理模型

很多时候工程架构解决的是复杂性问题,对于 LLM 来说,模型结构相对固定,结构核心部分已经变成全手写以达成最佳性能,好像所有的 LLM 模型几乎可以使用同一套 API。AI推理需求即将爆发,甚至也可以说已经爆发的2025年,真正适配AI大模型大规模落地的底层AI infra应该是什么样的?DeepSeek V3 作为目前公开资料可以看到的最复杂、最精巧的大模型 infra 设计,紧密结合算法和In...

2025-03-10 10:11:01 120

转载 YOLOv8基于MGD的知识蒸馏

向AI转型的程序员都关注公众号 机器学习AI算法工程本篇文章将剪枝后的模型作为学生模型,剪枝前的模型作为教师模型对剪枝模型进行蒸馏,从而进一步提到轻量模型的性能。Channel-wise Distillation (CWD)问题和方法在计算机视觉任务中,图像分类只需要预测整张图像的类别,而密集预测需要对每个像素或对象进行预测,输出更丰富的结果,如语义分割、目标检测等。直接应用分类任务中的知识蒸馏方...

2025-03-07 10:20:21 175

转载 漫画趣解:彻底搞懂模型蒸馏!

向AI转型的程序员都关注公众号 机器学习AI算法工程在人工智能的浪潮中,一个新兴的名词——“模型蒸馏”正逐渐走进大众视野。尤其随着DeepSeek的火爆,模型蒸馏更是成为热议的话题。那么,什么是模型蒸馏呢?一、模型蒸馏的定义模型蒸馏,简而言之,就是把大模型学到的知识,用“浓缩”的方式传授给小模型的过程。这样做的目的,是在保证一定精度的基础上,大幅降低运算成本和硬件要求。以DeepSeek为例,满血...

2025-03-05 10:20:45 185

转载 YOLOv12入门教程

向AI转型的程序员都关注公众号 机器学习AI算法工程论文链接:https://arxiv.org/abs/2502.12524代码链接:https://github.com/sunsmarterjie/yolov12长期以来,增强YOLO框架的网络架构一直至关重要,但一直专注于基于cnn的改进,尽管注意力机制在建模能力方面已被证明具有优越性。这是因为基于注意力的模型无法匹配基于cnn的模型的速度。...

2025-03-02 11:10:23 255

转载 76个DeepSeek满血版平台使用链接,全网最全

向AI转型的程序员都关注公众号 机器学习AI算法工程1.DeepSeek官网使用方式:网页或者App均可访问地址:https://www.deepseek.com/费用:不限次数免费使用2.BetterYeah AI使用方式:网页搜索(https://ai.betteryeah.com/login?channel=home&register_source=/)可用模型:DeepSeekR1...

2025-02-27 18:50:22 4170

电动车佩戴头盔检测数据集(TWHD)

电动车佩戴头盔检测数据集(TWHD) 数据集已经按照VOC格式进行整理,可以直接通过labelImg读取打开查看相关的标注信息。图像分辨率不一,总体在1080P以下,不区分训练集和测试集,总计5448张图像样本与标注xml文件。数据集标注共三个类别: two_wheeler,二轮车主体,黄色框 helmet,佩戴头盔的头部,绿色框 without_helmet,未戴头盔的头部,红色框

2024-03-02

目标检测yolov系列半自动标注数据集代码

目标检测yolov系列半自动标注数据集代码。如果待标注数据集量大,可以先手动标注少量,然后训练出初版目标检测模型,然后用初版模型预测进行预标注,最后人工检查预标注,修正误检标注。 步骤: 1.将待标注图像放入auto_label/images 2.修改auto_label.py的第62至65行如下的内容: path = r"auto_label/images" #待标注图片路径 xml_path = r"auto_label/images" #输出的xml标注文件保存路径 yolo_model_weight='./weight/IDCard_v6x_best.pt' #模型文件路径 data_conf = './data/custom_data.yaml' #数据集配置文件路径 3.运行auto_label.py

2024-03-01

python目标检测数据增强代码VOC格式转换为COCO格式代码

python目标检测数据增强代码,增强方式包含裁剪(需改变bbox)、平移(需改变bbox)、改变亮度、加噪声、旋转角度(需要改变bbox)、镜像(需要改变bbox)、cutout等。 同时也包含了将VOC格式数据集转换为COCO格式的代码。代码适合用于各种计算机视觉目标检测数据集增强,增广数据集,增加检测模型鲁棒性,减小模型漏检、误检等情况,适合用于YOLO系列模型,YOLOv1到YOLOv9训练。

2024-03-01

darknet_windows.rar已编译直接可用yolo3

windows下darknet(CPU版本)已经编译好,包含libdarknet.so等文件,已经编译好,直接可以用,已经测试成功使用YOLO3

2020-02-27

图片分类数据集(17类花朵)

图像分类数据集:17个类别的花朵数据集,训练集800张,验证集和测试集260张

2019-09-18

细粒度用户评论情感分析数据集(2018-AI-challenger)

共包含6大类20个细粒度要素的情感倾向.数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。每个细粒度要素的情感倾向有四种状态:正向、中性、负向、未提及.

2019-03-23

pythons爬虫_抓取微信公众号 历史文章

pythons爬虫:抓取微信公众号 历史文章

2017-08-20

Kaggle自然语言处理文本匹配竞赛华人第1名团队PPT与代码-深度学习与特征工程

Kaggle自然语言处理文本匹配竞赛华人第1名团队PPT-深度学习与特征工程,代码仓库地址在ppt 内

2018-11-28

HanLp数据字典(1.7.1)

汉语言处理包中的data.zip数据,github上下载速度有点慢,这里提供下载。其他相关资源可从官网上下载jar包及配置文件。

2019-03-26

语义相似度任务-LCQMC数据集下载lcqmc.zip

语义相似度任务-LCQMC数据集下载。LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。

2019-07-28

libstdc++.so.6.0.23下载

顺利解决/usr/lib64/libstdc++.so.6: version `CXXABI_1.3.8‘ not found

2021-08-05

TensorRT-7.0.0.11.CentOS-7.6.x86_64-gnu.cuda-10.0.cudnn7.6.txt

百度网盘下载链接 TensorRT-7.0.0.11.CentOS-7.6.x86_64-gnu.cuda-10.0.cudnn7.6.tar.gz TensorRT-7.0.0.11.CentOS-7.6.x86_64-gnu.cuda-10.2.cudnn7.6.tar.gz

2021-04-10

linux系统(Ubuntu)已编译darknet(cpu版)直接可用

linux系统(Ubuntu)已编译darknet(cpu版),包含libdarknet.so等文件,下载下来直接可用,成功测试yolo3。

2020-02-27

COCO API的安装包 cocoapi.zip 安装pycocotools

COCO API的完整安装包,带_mask.c文件 cocoapi.zip,安装pycocotools

2021-09-10

阿里天池FashionAI服装属性标签图像识别Top1-5方案分享

阿里天池FashionAI服装属性标签图像识别Top1-5方案分享

2019-01-06

爬取P2P网站

爬取P2P网站

2017-08-20

GoogleNews-vectors-negative300.bin.gz

GoogleNews-vectors-negative300.bin.gz是word2vec提前训练好的model。

2019-07-20

python图片下载器

python图片下载,传入图片url,将图片保存在本地

2017-08-11

Cube-IQ-使用方法_图文说明_使用步骤.docx

Cube-IQ-使用方法_图文说明,Cube iq使用方法,Cube iq 装载优化软件,Cube iq使用步骤Cubeiq 使用方法 newload 创建装载方案 比如装载casio ,可以设装载项目为casio

2021-05-05

python字符串处理去掉符号加空格

# 1、去掉特殊符号".","","#"; # 2、去掉中间多余空格; # 3、去掉首尾空格; # 4、中文与英文间添加空格

2017-08-11

Python3语法速查本PDF.zip

Python3语法速查本

2019-12-05

Deep Learning for NLP with TensorFlow2.0.zip

最新基于TensorFlow 2.0的NLP实操介绍,重点介绍Embeddings,seq2seq,attention和神经机器翻译等经典的NLP主题,以及Transformer、BERT和XLNet等现代深度学习架构.

2020-07-10

阿里巴巴机器智能技术精选合集.PDF

阿里巴巴在 AAAI 2018 上也收获了 11 篇录用论文,分别来自 iDST、 业务平台事业部、阿里妈妈事业部、人工智能实验室、云零售事业部,其 中有 5 位作者受邀在主会做 Oral 形式报告,另有 1 位作者携两篇论文在 主会以 Poster 形式做报告。论文内容涉及对抗学习、神经网络、提高轻 量网络性能的训练框架、聊天机器人、无监督学习框架、极限低比特神经 网络等技术方向。

2019-12-05

吴恩达深度学习课程-神经网络和深度学习

吴恩达深度学习课程-神经网络和深度学习。

2018-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除