
大模型专栏
文章平均质量分 92
大模型相关专栏,例如GPT、LLaMA和PaLM这三大LLM家族等
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI新智力 | 大模型入门19:算力芯片选型的考量因素
除了综上所述,选择芯片时,要从以下几个方面考虑。首先,要考虑算力性能、内存大小(显存大小)、显存带宽和互联带宽:算力性能决定了训练和推理的速度。在推理时,表现就是输出Token的快慢。内存大小决定了支持的模型大小。可以根据参数量进行估算,比如7B模型在FP16推理时显存通常为16-20GB。显存带宽决定了训练和推理的速度。互联带宽决定了多卡情况下的训练和推理的速度。其次,还要考虑并行计算单元的数量(如CUDA核数)、矩阵计算单元(如Tensor核数)等的数量。原创 2025-09-18 22:24:18 · 856 阅读 · 0 评论 -
AI新智力 | 大模型入门17:大模型的“情商”是怎么来的
本文探讨了大语言模型"情商"的来源,指出其背后关键是RLHF(基于人类反馈的强化学习)技术。RLHF通过三个关键步骤:监督微调、训练奖励模型和强化学习训练,使大模型输出符合人类价值观。这种方法让模型学会提供礼貌、得体的回答,避免不当内容,但也可能降低输出多样性并引入人类偏见。文章形象地将训练过程比作人类教育的三个阶段,最终通过"奖惩机制"将高情商固化到模型参数中。原创 2025-09-17 18:46:13 · 874 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:大模型加速的秘密 FlashAttention 1/2/3
FlashAttention系列技术通过优化GPU内存访问效率,显著提升了Transformer模型处理长序列的能力。FlashAttention v1采用分块计算和重计算技术,将内存占用降为线性;v2改进工作划分策略,提升并行度,计算速度达到理论峰值的73%;v3利用H100 GPU的异步计算和FP8低精度特性,性能超越NVIDIA官方库。这些技术使模型能高效处理数万token的文本,在BERT、GPT-2等模型上实现1.5-3倍加速,同时保持计算精度。原创 2025-09-15 17:44:22 · 865 阅读 · 0 评论 -
DataFunTalk | MiniMax RAG 技术:从推理、记忆到多模态的演进与优化
本文探讨了检索增强生成(RAG)技术在智能体与大模型应用中的最新发展。随着技术进步,RAG正从"检索+生成"向"检索+推理+记忆+多模态"一体化演进。文章重点分析了三个关键方向:1)推理篇:通过知识图谱、蒙特卡洛树搜索等优化推理链构建;2)记忆管理:引入动态检索、注意力过滤与多智能体协作机制;3)多模态RAG:利用视觉语言模型和张量化检索处理复杂数据。同时指出工程实现上面临的存储膨胀、重排序等挑战,并提出了数据库与模型协同优化的解决方案。原创 2025-09-10 17:48:03 · 1447 阅读 · 0 评论 -
AI新智力 | 大模型入门16:大模型推理能力如何实现的
本文介绍了大模型推理能力的实现原理与发展历程。文章将大模型分为推理型和非推理型两类,重点分析了DeepSeek-R1等推理大模型的特点。这类模型通过强化学习、神经符号推理等技术增强逻辑分析和问题解决能力,能够展示中间思考过程。文章详细阐述了推理模型的训练过程(包括监督微调、强化学习等阶段)和推理优化方法(如推理Token、提示工程等)。推理大模型的出现标志着AI从生成向推理范式转变,在数学、编程等复杂任务中展现出显著优势,将推动AI在多个领域的应用落地。原创 2025-09-09 21:19:17 · 1024 阅读 · 0 评论 -
AI新智力 | 大模型入门15:GraphRAG、LightRAG、AgenticRAG
本文探讨了多种检索增强生成(RAG)技术方案的特性与适用场景。传统RAG存在知识图谱支持不足、上下文理解困难等局限。GraphRAG通过构建知识图谱提升推理能力,但成本高且扩展性差;LightRAG优化资源消耗,支持增量更新;AgenticRAG引入智能体实现复杂交互。技术选型建议:简单问答用传统RAG,知识图谱需求选LightRAG,复杂场景采用AgenticRAG。当前大模型技术快速迭代,解决方案持续更新中。原创 2025-09-08 19:29:17 · 976 阅读 · 0 评论 -
AI新智力 | 大模型入门14:DeepSeek的系统级工程应用创新
DeepSeek的出现,以其“开源+⾼性价比+强推理力”的模式,打破了过去闭源⼤模型垄断、疯狂砸算力才能出成果的固有观念。它在不依赖顶级GPU资源的情况下,通过多层次创新(数据⾃学习、MoE架构、HAI-LLM框架、PTX底层编程)打造出与GPT-4等闭源⼤模型接近或相当的竞争力。通过“算法-硬件-软件”协同创新优化,以百倍性价比提升改写行业规则,训练成本仅为GPT-4的1/100,推动全球AI研发从“暴力计算”转向系统级工程创新。原创 2025-09-05 21:57:35 · 741 阅读 · 0 评论 -
AI新智力 | 大模型入门13:大模型发展简史及思考
现阶段以大语言模型为代表的人工智能技术正蓬勃发展,在全球经济不景气的大背景下,为经济发展提供了强劲活力,同时各种有利因素叠加为人工智能的进一步发展提供了更大空间,但也应注意人工智能历史上的多次”寒冬“给人们带来的警示作用。原创 2025-09-04 17:49:07 · 1128 阅读 · 0 评论 -
周报 | 25.8.25-25.8.31文章汇总
本周技术文章精选摘要:涵盖AI、CV和Python等领域最新进展。LangGraph构建多智能体系统指南;Converse2D提出图像恢复新方法;腾讯开源HunyuanVideo-Foley实现视频音效生成;YOLO13强势升级;JAX高性能计算库教程;MCP协议详解;DyCAF-Net提升检测性能5.79%;ClaudeCode架构解析;大模型私有化部署方案;Python实用库推荐(schema/mrq)。技术干货持续更新,欢迎互动交流学习。原创 2025-09-03 17:22:49 · 299 阅读 · 0 评论 -
AI新智力 | 大模型入门12:MCP协议
MCP协议是由Anthropic推出的开源标准,旨在解决大模型与外部数据源和工具的交互标准化问题。该协议通过统一接口、安全双向通信和模块化扩展,有效缓解了大模型知识更新滞后和N×M适配难题。MCP采用客户端-服务器架构,支持本地和远程连接,已形成快速发展的生态系统。但该协议存在对华技术限制、本土适配不足等问题,文章呼吁国内厂商应尽快研发自主知识产权的AI协议栈,避免在基础协议领域受制于人。目前MCP虽推动了大模型与外部系统连接的标准化进程,但其美国主导的技术生态仍需中国开发者额外投入大量适配工作。原创 2025-08-31 15:12:06 · 821 阅读 · 0 评论 -
AI新智力 | 大模型入门11:私有化部署问答助手术语、工具和解决方案
目前的大语言模型,几乎都是以聊天的方式来和用户进行交互的,这也是为什么OpenAI开发的大模型产品叫ChatGPT,核心就是Chat。而我们基于大语言模型LLM落地应用,核心就是利用大模型的语义理解能力和推理能力,帮我们解决一些难以用“标准流程”去解决的问题,比如理解非结构化数据、分析推理、归纳总结等。原创 2025-08-31 15:04:54 · 814 阅读 · 0 评论 -
极市平台 | 一文看懂AI搜索与Web智能体:从RAG到Deep Research全景综述
本文综述了AI搜索与Web智能体的最新进展,重点探讨了文本AI搜索、Web智能体、多模态应用及评测体系。传统搜索引擎难以理解复杂意图,而基于LLM的AI搜索通过RAG工作流和深度搜索方法显著提升了信息检索效率。Web智能体则模拟人类浏览行为完成特定任务。多模态技术进一步扩展了处理图文信息的能力。文章还介绍了主流评测基准和实际应用产品,展示了该技术在通用搜索、垂直领域和集成化助手三大场景的快速发展,为未来更智能的信息检索系统提供了技术路线图。(149字)原创 2025-08-30 02:15:00 · 929 阅读 · 0 评论 -
阿里云开发者 | Claude Code 深度拆解:一个顶级AI编程工具的核心架构
ClaudeCode深度解析:AI编程工具的核心架构与启示 本文详细拆解了Anthropic开发的终端AI编程工具ClaudeCode的核心架构。该工具通过自然语言指令帮助开发者高效完成编程任务,其设计亮点包括:交互层实现命令行输入处理与结果渲染;核心引擎协调消息系统、查询引擎和工具调度器;功能强大的工具系统支持文件操作、命令执行等任务;智能的上下文管理采用LRU缓存和按需加载策略;严格的安全机制保障工具使用安全性。文章还揭示了多项创新技术:BinaryFeedback机制检测模型输出稳定性、分层MCP工具原创 2025-08-30 01:45:00 · 746 阅读 · 0 评论 -
AI生成未来 | 碾压SOTA!腾讯HunyuanVideo-Foley开源:让视频自动生成电影级音效,沉浸感拉满!
腾讯开源HunyuanVideo-Foley框架,通过多模态扩散与表示对齐技术实现高质量音效自动生成。该方案构建了10万小时级的文本-视频-音频数据集,采用REPA损失函数增强音频建模,并设计多模态扩散Transformer解决模态不平衡问题。实验表明,该方法在音频保真度、视觉/文本语义对齐及时序同步等指标上均超越现有技术,达到了SOTA水平。项目已开源,为影视音效制作提供了高效解决方案。原创 2025-08-29 20:34:22 · 846 阅读 · 0 评论 -
AI算法与图像处理 | 从零搭建智能体!构建第一个MCP
本文介绍了Anthropic提出的Model Context Protocol(MCP)协议,它通过标准化方式为LLM提供外部工具调用能力。文章详细讲解了MCP的核心架构组成(Host/Client/Server)和两种传输机制(Stdio/HTTP SSE),并提供了两个实践案例:一个是本地计算器功能的MCP实现,另一个是通过SSE通信方式实现的arXiv论文搜索工具。文中包含完整的代码示例,帮助读者理解如何从零开始搭建自己的MCP应用。最后还提供了相关的学习资源链接,包括官方文档和中文指南等参考资料。原创 2025-08-26 17:31:49 · 1114 阅读 · 0 评论 -
CV技术指南 | ICCV 2025 | Converse2D | 即插即用 | 卷积真正的逆 | 在图像恢复中的逆卷积
本文提出了一种新型逆卷积算子Converse2D,通过将逆卷积过程转化为正则化最小二乘优化问题,利用维纳滤波模型在频域求解封闭解。该方法采用圆形边界条件和Softmax归一化处理模糊核,通过插值初始化提升重建效果。实验表明,Converse2D在去模糊任务中效果显著,在去噪任务中也有提升,可作为即插即用模块用于特征增强。该研究为卷积逆运算提供了新思路,相关代码已开源。原创 2025-08-25 20:54:51 · 963 阅读 · 0 评论 -
数据派THU | 使用LangGraph从零构建多智能体AI系统:实现智能协作的完整指南
多智能体AI系统代表了人工智能应用架构的重要演进方向。通过将复杂任务分解为专门化智能体的协作模式,我们能够构建出性能更优、可维护性更强的AI系统。本文通过构建AI研究助手的完整案例,展示了从系统架构设计到具体实现的全过程。相比传统的单模型方案,多智能体架构在处理复杂任务时能够实现40-60%的性能提升,同时具备更好的可扩展性和可调试性。原创 2025-08-25 20:53:24 · 1398 阅读 · 0 评论 -
AI新智力 | AI | 大模型入门(十):RAG vs. KAG
本文对比了RAG(检索增强生成)与KAG(知识增强生成)两种大模型增强技术。RAG擅长处理开放域任务,通过检索非结构化数据提供经济高效的解决方案;而KAG专注于结构化知识图谱,支持逻辑推理和多跳问答,在专业领域如医疗诊断中表现更优。两者的核心区别在于:RAG基于文本相似性检索,KAG则依赖知识图谱的逻辑关系。未来趋势将向多模数据库发展,融合向量库、图库等,推动AI从信息检索向认知理解进阶。技术选型需根据任务需求,RAG适合动态信息整合,KAG则适用于需严格逻辑验证的专业场景。原创 2025-08-24 15:04:56 · 1025 阅读 · 0 评论 -
AI新智力 | AI | 大模型入门(九):RAG数据库
本文介绍了RAG(检索增强生成)技术在大模型应用中的重要作用。RAG通过外挂知识库解决大模型知识更新难、生成结果不可解释和数据安全三大问题。文章分析了实现RAG的四种主要数据库类型:1)向量数据库(如Chroma),适用于非结构化数据语义检索;2)图数据库(如Neo4j),擅长处理结构化关系数据;3)知识图谱,增强推理能力和答案可解释性;4)混合架构数据库(如Elasticsearch+Neo4j),可综合多种检索方式。原创 2025-08-24 11:12:10 · 1170 阅读 · 0 评论 -
Coggle数据科学 | 行业落地分享:浦银理财AI Agent应用案例
浦银理财推出AI员工助手,通过四层架构(数据层、模型层、Agent层、应用层)实现智能服务。该助手具备办公助理、运营秘书、知识管家、分析顾问四大功能,依托AI服务中台提供知识智能化、服务自动化等能力。其技术采用五步构建法,包括需求定义、模型选型、本地部署、RAG增强和系统集成。中台架构分为服务网络、应用中心、系统中心和基础设施四层,支持多知识库管理和自动化业务流程。案例展示了AI从工具到智能体的演进,体现了金融领域AI应用的实践价值。原创 2025-08-23 10:29:00 · 695 阅读 · 0 评论 -
OpenCV与AI深度学习 | Meta Dino-V3:适用于每个图像任务的终极视觉AI
MetaDino-V3是Meta推出的视觉基础模型,能在无监督条件下学习图像的密集特征。该模型采用7B参数的VisionTransformer架构,通过170亿张Instagram图片进行训练,并引入GramAnchoring技术防止特征退化。其特点包括:支持高分辨率输入、适用于分割/深度估计等多种视觉任务、可蒸馏为小型模型、兼容文本编码器。作为首个在密集任务上超越监督模型的SSL模型,DINOv3打破了传统视觉模型对标签的依赖,具有强大的泛化能力和扩展性,成为计算机视觉领域的重要里程碑。原创 2025-08-21 16:58:58 · 1496 阅读 · 0 评论 -
集智书童 | 干翻SAM,CPU也能玩转高精度分割 | Inter2Former四大创新模块让密集Token处理速度飙升2.25倍
摘要: Inter2Former提出了一种高效高精度交互式图像分割方法,通过四大创新模块解决密集Token处理难题。动态Prompt嵌入(DPE)裁剪感兴趣区域以减少背景计算;动态混合注意力(DHA)根据边界信息差异化分配计算资源;混合专家混合(HMoE)优化CPU并行计算;动态局部上采样(DLU)实现选择性细粒度上采样。实验表明,该方法在CPU设备上达到SOTA性能,推理速度提升2.25倍,同时保持高分割精度。特别地,HMoE模块使CPU推理延迟降低56%-85%。原创 2025-08-20 17:06:28 · 755 阅读 · 0 评论 -
新智元 | DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4
DeepSeek V3.1新版发布,编程能力碾压Claude 4 Opus,支持128K上下文,成本仅1美元。该模型在Aider基准测试中得分71.6%,超越Claude 4,同时推理速度更快。新增原生搜索支持,架构可能转向混合推理。实测显示其处理长文本和编程任务表现优异,但仍有改进空间。网友期待其后续版本R2的发布。原创 2025-08-20 14:54:43 · 821 阅读 · 0 评论 -
Datawhale | 一文全解析:AI 智能体 8 种常见的记忆(Memory)策略与技术实现
本文介绍了AI智能体8种常见的记忆策略,包括全量记忆、滑动窗口、相关性过滤、摘要压缩、向量数据库、知识图谱、分层记忆和类OS内存管理。每种策略都有其优缺点和适用场景,如全量记忆简单但易超限,滑动窗口节省资源但健忘性强,向量数据库支持长期记忆但依赖嵌入质量。文章通过模拟代码帮助理解不同策略的实现原理,并指出应根据具体需求选择合适的记忆方案,以平衡记忆能力、计算成本和系统复杂度。原创 2025-08-19 17:51:24 · 1725 阅读 · 0 评论 -
集智书童 | ViT计算复杂度大降50% | BSPF-ViT:基于Block的对称剪枝让视觉Transformer飞起来
摘要:本文提出BSPF-ViT方法,通过基于块的对称剪枝策略解决视觉Transformer(ViT)计算复杂度高的问题。核心创新包括:1)将输入token分块进行2D联合剪枝;2)基于相似性融合被剪枝token信息;3)设计对称注意力矩阵减少计算冗余。实验表明,在DeiT-T/S上分别实现1.3%/2.0%的准确率提升,计算量降低50%,推理速度提升40%。该方法在目标检测等下游任务中也表现优异,但存在块大小固定、对称性假设等局限性。研究为ViT的高效部署提供了新思路。原创 2025-08-19 17:21:21 · 814 阅读 · 0 评论 -
江大白 | 一文梳理6款主流热门智能体框架:Dify、Coze、n8n、AutoGen、LangChain、CrewAI!
本文系统梳理了6款主流智能体框架(Dify、Coze、n8n、AutoGen、LangChain、CrewAI),从开发难度、多Agent协作等5个维度进行对比分析。Dify适合企业级应用开发,Coze主打零代码AI应用,n8n侧重工作流自动化,AutoGen专注多Agent对话协作,LangChain擅长模块化LLM应用,CrewAI则基于角色分工协作。文章提供了选型决策建议:初创企业可优先考虑低门槛的Coze/n8n;企业级应用建议Dify/LangChain;科研项目推荐AutoGen/CrewAI。原创 2025-08-18 16:38:12 · 1638 阅读 · 0 评论 -
极市平台 | Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
Meta开源视觉基座模型DINOv3,通过17亿无标签图像自训练实现突破性进展。该70亿参数模型在密集预测任务中首次超越弱监督方案,支持高分辨率图像处理,并推出商用级模型家族及卫星影像专用权重。DINOv3采用创新自监督技术,无需标注数据即可生成高质量特征,在目标检测、语义分割等任务中表现优异。其核心改进包括GramAnchoring策略和旋转位置编码,显著提升密集特征质量。Meta同时开源蒸馏后的轻量版本,便于实际部署。该技术已在医疗影像、卫星监测等领域应用,如WRI利用其提升森林监测精度。原创 2025-08-17 15:32:10 · 1174 阅读 · 1 评论 -
Coggle数据科学 | 小白学信息抽取:LangExtract 一款由Gemini 驱动的信息提取库
Google推出开源Python库LangExtract,基于Gemini模型实现非结构化文本的高效信息提取。该库支持自定义指令,通过精准来源定位、结构化输出和交互式可视化,可处理医疗、法律等多领域文本。其核心流程包括文档分块、LLM推理、实体解析与对齐,并优化了长上下文处理和模型调用效率。LangExtract通过避免实体重叠和批处理机制提升性能,适合需要可追溯结构化数据的场景。。原创 2025-08-17 15:24:53 · 717 阅读 · 0 评论 -
Coggle数据科学 | 小白学RAG:RAG进阶思路与研究综述
本文综述了2020-2025年检索增强生成(RAG)技术的最新进展,系统梳理了RAG的关键组件和技术挑战。研究显示,RAG系统已从单一检索发展为包含混合索引、自适应检索和记忆增强的复杂架构,在检索精度(如MRR@k达0.82)和生成质量(BERTScore提升15%)方面取得显著突破。然而仍面临三大核心挑战:计算资源消耗(动态检索使延迟增加300-500ms)、领域适应性(跨领域性能下降达40%)及安全风险(语料库投毒0.1%即可引发后门攻击)。原创 2025-08-15 17:54:35 · 587 阅读 · 0 评论 -
AI生成未来 | 从短片到长片的质变:Macro-from-Micro 攻克长视频生成三大难题 | 南大、TeleAI等
南大与TeleAI联合提出Macro-from-Micro方法,突破长视频生成三大技术瓶颈。该研究采用分层自回归规划框架,通过微观规划预测关键帧、宏观规划确保全局连贯性,结合并行化内容填充技术,有效解决传统方法中的时序漂移问题。实验表明,该方法在30秒视频生成中主体一致性达0.980,人类评估三项指标均领先,同时通过自适应GPU调度实现3倍加速。研究为电影制作、VR等长时序场景提供了高质量视频生成新方案,未来可通过结合自校正技术进一步扩展生成时长。原创 2025-08-15 17:41:27 · 876 阅读 · 0 评论 -
AI生成未来 | 告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成
中国研究团队提出首个支持2D/3D/4D全自动生成的多模态大语言模型(MLLM)数据流水线"Follow-Your-Instruction"。该框架通过四大核心组件(MLLM-Collector、Generator、Optimizer和Planner)实现从文本/图像输入到高质量合成数据的全流程自动化,显著降低人工标注成本。实验表明,在2D物体移除、3D重建和4D视频生成等任务中,使用该框架合成的数据微调模型可有效提升下游性能。原创 2025-08-14 17:35:45 · 678 阅读 · 0 评论 -
江大白 | 六大顶流开源多模态大模型,13大场景横向测评实例!
本文对国内6款主流开源多模态大模型(GLM-4.1V、Skywork-R1V3、Qwen2.5-VL、InternVL3、Step3、ERNIE-4.5)在13个场景下的表现进行了横向评测。测试结果显示:在OCR识别、目标识别等基础任务上各模型表现良好;Qwen2.5-VL在表格解析任务中表现突出;Skywork-R1V3在数学推理和部分空间任务中表现较优;但在目标对比、空间变换、色盲测试等复杂任务上各模型仍存在明显不足。综合来看,不同模型各有优势,建议用户根据具体需求选择合适的模型。评测表明国内开源多模态原创 2025-08-13 17:21:48 · 1254 阅读 · 0 评论 -
Datawhale | 喵神:一个半月高强度Claude Code使用后感受
《ClaudeCode使用体验:AI编程的边界与潜力》 资深开发者王巍分享了一个半月高强度使用ClaudeCode(CC)的深度体验。文章揭示了几个关键发现:1)AI编程显著提升迭代速度,但也带来更激烈的行业竞争;2)命令行工具比编辑器AI更利于进入"vibecoding"状态,开发者干预越少效果越好;3)CC擅长理解代码逻辑但存在语言偏差,前端表现优于iOS/Swift;4)合理拆解任务、小步迭代比一次性生成大量代码更有效;5)200k上下文窗口限制需要精心管理原创 2025-08-13 17:08:40 · 1769 阅读 · 0 评论 -
Datawhale | 超全解析!大模型面试宝典60题-下(收藏慢慢看!)
本文介绍了大模型面试60题的精选解析,涵盖向量检索、多模态模型、训练方法等多个领域。重点包括:混合检索架构解决语义与关键词匹配矛盾、CLIP训练中的对比学习机制、BLIP-2引入Q-Former的模态桥接作用、QLoRA分块量化技术、PPO与DPO的强化学习对比等。文章还探讨了模型微调策略、能力蒸馏方法、领域适应方案等实际问题,并提供了构建AI照片助手、验证生成文本等具体场景的解决方案。这些面试题解析既包含理论基础,又涉及工程实践,适合准备大模型相关面试或希望系统了解大模型技术的读者参考。原创 2025-08-09 17:23:34 · 845 阅读 · 0 评论 -
Datawhale | 超全解析!大模型面试宝典60题-上(收藏慢慢看!)
本文解析了大模型领域的60个核心面试问题,涵盖模型架构、注意力机制、分词方法、词嵌入、提示词设计等关键技术要点。文章首先比较了BERT、GPT等不同架构的优缺点,深入讲解自注意力机制、上下文长度限制等原理。在应用层面,详细探讨了零样本分类、文本聚类、主题建模等场景的解决方案,并分析了静态词嵌入与上下文嵌入的差异。针对提示词工程,文章提供了专业模板设计和防注入攻击的方法,同时介绍了思维链、分步生成等优化策略。最后,文章讨论了智能体设计、RAG系统构建等高级话题,为解决上下文缺失、跨片段依赖等问题提供了实用方案原创 2025-08-09 17:19:07 · 727 阅读 · 0 评论 -
江大白 | 深夜读完 OpenAI 开源gpt-oss-120b/20b 技术报告后,OpenAI还是那个OpenAI!
OpenAI发布开源大模型gpt-oss-120b/20b,具备工具调用、131K长文本处理和三档推理能力,性能接近商业版GPT-4。该MoE架构模型采用创新MXFP4量化技术,在医疗等领域表现突出,支持Apache2.0商用许可。开发者可通过简单命令快速部署,为智能Agent开发提供强力支持,标志着开源大模型领域的重要突破。原创 2025-08-08 17:48:23 · 624 阅读 · 0 评论 -
AI生成未来 | 大模型低秩适应(LoRA)技术全面综述:背景、基础、前沿、应用、挑战(建议收藏!)
《大模型低秩适应技术(LoRA)综述》 本文系统综述了低秩适应(LoRA)技术在大模型微调领域的应用与发展。LoRA通过在低维子空间进行参数更新,显著降低了基础模型微调的计算成本,同时保持了模型性能。文章从四个维度解析了LoRA的技术基础:参数效率增强、秩适应策略、训练过程改进和理论基础,并探讨了其在持续学习、联邦学习等前沿领域的发展。研究显示,LoRA已成功应用于自然语言处理、计算机视觉、语音识别等多个领域,在保持95%以上性能的同时将参数量降低至原模型的0.1%。原创 2025-08-07 17:54:50 · 1600 阅读 · 0 评论 -
江大白 | CVPR 2025,即插即用MambaOut,图像分类、目标检测多场景SOTA!(附论文及源码)
摘要:新加坡国立大学研究团队提出MambaOut模型,通过移除状态空间模型(SSM)构建基于GatedCNN块的简化架构。实验表明,在ImageNet分类任务中MambaOut性能优于视觉Mamba模型,但在检测和分割任务中仍存在差距。研究证实SSM对图像分类非必需,为视觉模型设计提供新思路。模型代码已开源,采用深度可分离卷积实现高效运算,参数量更少但分类准确率更高(MambaOut-Small达84.1% top-1准确率)。该工作挑战了Mamba在视觉领域的必要性,为轻量级模型设计开辟新方向。原创 2025-08-06 17:47:28 · 930 阅读 · 0 评论 -
集智书童 | 视觉Agent新突破 | PyVision实现多轮代码生成,Claude-4.0在VLMsAreBlind准确率跃升31.1%
《PyVision:动态工具生成推动视觉Agent新突破》 摘要: PyVision框架在多模态视觉推理领域实现重大突破,通过动态工具生成机制显著提升模型性能。该框架允许多模态大语言模型(MLLM)在多轮交互中自主生成、执行和优化Python代码工具,突破了传统静态工具集的限制。核心创新包括:1)构建交互式多轮推理框架;2)利用Python生态实现动态工具生成;3)建立五类视觉工具分类体系(基础/高级图像处理、视觉Prompt、数值分析、长尾操作)。原创 2025-08-05 14:52:01 · 1059 阅读 · 0 评论 -
江大白 | 3万字长文!深度解析大语言模型LLM原理!
2.1 神经网络发展史神经网络诞生于20世纪40年代,取得重要突破的节点在20世纪70年代、20世纪80年代、21世纪初。20世纪70年代:Paul Werbos博士提出了影响深远的Back Propagation的神经网络学习算法,实际上找到了训练多层神经网络的方法。原创 2025-08-04 22:02:49 · 1216 阅读 · 0 评论