自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1136)
  • 资源 (1)
  • 收藏
  • 关注

原创 Coursera吴恩达《深度学习》课程总结(全)

01 神经网络和深度学习(Neural Networks and Deep Learning)1-1 深度学习概论主要介绍:主要对深度学习进行了简要概述。首先,我们使用房价预测的例子来建立最简单的单个神经元组成的神经网络模型。然后,我们将例子复杂化,建立标准的神经网络模型结构。接着,我们从监督式学习入手,介绍了不同的神经网络类型,包括Standard NN,CNN和RNN。不同的神经网络模型适合处理不同类型的问题。对数据集本身来说,分为结构化数据和非结构化数据。近些年来,深度学习对非结构化数据的处理

2021-09-24 19:01:44 40849 4

原创 周报 | 25.6.16-25.6.22文章汇总

AI领域迎来多项突破,英伟达发布SeNaTra空间分组层革新语义分割性能;MiniMax-Remover实现视频去物新SOTA;YOLO11与OBB旋转检测模型提升目标检测能力。此外,DeepSeekV3+R1微调工具上线降低硬件要求,GNN与LangGraph结合推进情感分析技术。Python元类应用、OpenCV保险丝识别等实战内容同样值得关注。更多前沿技术进展与实用教程详见各技术博客平台。

2025-06-24 16:35:33 21

原创 极市平台 | 大白话用Transformer做Object Detection

本文介绍了基于Transformer的目标检测方法DETR及其改进方向。DETR通过端到端检测机制和输入输出空间解耦等优势,实现了与传统CNN检测器不同的范式。文章分析了DETR收敛慢的原因在于object query与图像特征初始对齐困难,并总结了Deformable DETR、Anchor DETR等改进工作通过限制采样区域加速收敛的方法。最后探讨了query数量优化、位置编码改进等未来研究方向,为Transformer在目标检测领域的应用提供了深入见解。

2025-06-24 16:31:09 66

原创 OpenCV与AI深度学习 | MobileCLIP:一种轻量级的零样本图像分类解决方案(介绍 + 代码演示)

MobileCLIP:轻量级零样本图像分类解决方案 摘要:MobileCLIP是OpenAI开发的CLIP模型优化版本,专为资源受限设备设计。该模型通过将图像与文本描述关联,实现无需大规模训练即可识别新物体的零样本分类能力。相比原版CLIP,MobileCLIP具有更小的模型尺寸、更高的计算效率以及更低的延迟,特别适合移动设备、物联网等场景。文章详细介绍了MobileCLIP的工作原理,并提供了完整的代码实现方案,包括环境设置、模型加载、图像分类和可视化流程。

2025-06-23 17:38:47 500

原创 江大白 | DefMamba新型视觉模型,多尺度Backbone与Mamba,创新多任务视觉算法!(附论文及源码)

本文介绍了一种新型视觉基础模型DefMamba,通过创新的可变形扫描策略解决了现有视觉Mamba模型依赖固定扫描顺序导致的结构信息丢失问题。DefMamba结合多尺度Backbone和可变形Mamba模块,动态调整扫描路径以聚焦关键区域。实验表明,该模型在ImageNet分类、COCO检测/分割和ADE20K语义分割等任务中均取得领先性能,超越现有SSM方法,并与CNN和Transformer模型保持竞争力。

2025-06-23 17:19:52 533

原创 OpenCV与AI深度学习 | OpenCV无缝融合应用--指定目标颜色改变(附C++源码)

OpenCV无缝融合应用:指定目标颜色改变技术 摘要:本文介绍了利用OpenCV中colorChange函数实现图像指定目标颜色自然改变的技术。该算法基于Perez的论文,通过调整RGB三通道乘积因子(建议值0.5-2.5)实现目标区域颜色转换,同时保留边缘细节。实现步骤包括:1)用selectROI框选目标;2)通过滑动条动态调整参数;3)调用colorChange函数处理。

2025-06-22 15:42:11 483

原创 机器之心 | DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍

ColossalAI发布开源大模型后训练工具箱,支持DeepSeekV3/R1满血版671B参数的微调,提供完整的强化学习工具链。该工具支持混合精度训练和多种硬件加速,可将微调硬件需求降低10倍,仅需24个H100/H800 GPU或32个Ascend910B NPU。通过LoRA优化和灵活的并行策略,用户可低成本高效完成私有模型定制。工具还包含强化学习验证功能,以Qwen2.5-3B模型为例展示了GRPO算法的训练效果,支持自定义奖励函数设计。该工具箱现已在GitHub开源。

2025-06-22 15:39:00 389

原创 ChallengeHub | 如何微调推理大模型?以Qwen3/DeepSeek-R1为例

《如何高效微调推理大模型:三种方法对比》摘要 本文探讨了将传统指令微调迁移到推理大模型的三种实用方法。以DeepSeek-R1和Qwen3为例,方法1通过推理大模型将指令数据蒸馏为思维链数据(如Chinese-DeepSeek-R1-Distill-data-110k);方法2利用现有COT数据集(如medical-o1-reasoning-SFT)直接构造训练数据;方法3则直接使用"素"指令数据进行微调,实测32B推理模型可超越72B对话模型。

2025-06-21 04:45:00 1650

原创 OpenCV与AI深度学习 | OpenCV实现保险丝颜色识别(附源码)

本文介绍了使用OpenCV实现保险丝颜色识别的技术方案。首先将图像转换到HSV色彩空间,分离出饱和度(S)通道进行阈值处理(60-255),再通过轮廓查找定位每个保险丝区域。对每个区域提取色调(H)通道,根据不同颜色对应的H值范围(橙色10-30、红色0-10、蓝色125-162等)统计像素数量来判断颜色类型。代码实现了五种保险丝颜色(橙、红、蓝、黄、绿)的自动识别,并在识别结果上标注颜色名称和标记轮廓。该方法源自Halcon例程的OpenCV移植,适用于工业场景中的颜色分类应用。

2025-06-21 00:45:00 272

原创 江大白 | 目标检测YOLOv12算法来袭,更高性能、更快速度!(附论文及源码)

YOLOv12算法创新性地引入区域注意力模块和残差高效层聚合网络,显著提升目标检测性能与速度。实验表明,各规模模型均优于当前主流算法(YOLOv6/v8/v9/v10/v11)和RT-DETR系列,在保持低计算量的同时实现更高mAP值。例如,YOLOv12-S以21.4GFLOPs达到48.0mAP,推理速度仅2.61ms/图像。该研究通过优化注意力机制架构,突破传统CNN限制,为实时目标检测提供高效解决方案。论文及代码已开源,推动CV领域技术进步。

2025-06-20 17:40:52 867

原创 python | Python元类与抽象基类的实战应用

在Python的面向对象编程中,抽象基类(Abstract Base Class,简称ABC)是一个强大的特性,它为接口定义和类型检查提供了有力的支持。本文将深入探讨Python的ABC模块,剖析其实现原理,并通过实际示例展示其在工程实践中的应用。

2025-06-20 17:33:20 869

原创 自动驾驶之心 | DETR系列大盘点 | 端到端Transformer目标检测算法汇总!(建议收藏)

《Transformer目标检测算法盘点:DETR系列研究进展》 文章总结了基于Transformer的端到端目标检测算法发展脉络。从开山之作DETR开始,分析了其核心创新:用Transformer实现集预测,消除了NMS等手工组件。针对DETR存在的收敛慢、小目标检测差等问题,后续研究主要从三个方向改进: 1)优化注意力机制(如Deformable DETR引入稀疏采样) 2)融入空间先验知识(如Conditional DETR加入位置约束) 3)改进匹配策略(如DN-DETR提出去噪训练) 。

2025-06-19 16:46:54 1431

原创 Coggle数据科学 | Kaggle赛题解析:识别数据引用与分类

Make Data Count (MDC) 是一个全球性的、由社区驱动的倡议,旨在建立开放标准化的指标,用于评估和奖励研究数据的重用和影响力。通过倡导和基础设施项目,MDC 旨在将数据作为主要的研究成果加以认可,促进数据在不同数据社区中的共享和重用。通过突出和重视数据的贡献,可以推动更协作、透明和高效的科学实践,从而推动创新和进步。然而,目前科学数据的价值被严重低估,尽管它们是发现和创新的基础。

2025-06-19 16:32:15 754

原创 江大白 | 目标检测之旋转目标:YOLO11 与定向边界框(OBB)旋转检测!(附多种旋转检测模型)

OBB特别适用于目标并非垂直或水平放置的场景,例如:航拍视频中转弯的汽车、桌面上倾斜放置的书籍,或医学影像中旋转角度不一的肿瘤。在X光片中,器官、骨骼、肿瘤等目标常呈现不同角度以及不规则形状,由于OBB可以旋转以匹配目标角度,因此在定位和测量上比传统的水平边界框更为准确,这对于诊断和治疗方案的制定至关重要。预训练的YOLO11 OBB模型(如YOLO11n-obb)在DOTAv1数据集上训练,该数据集包含航空影像,标注了多类以不同角度和方向出现的目标,如飞机、船只和网球场等。

2025-06-18 21:46:29 723

原创 AI生成未来 | 视频去物“魔法橡皮擦”来了!MiniMax-Remover:新SOTA方法告别CFG,6步搞定

视频目标移除中的核心挑战模型容易生成幻觉物体(hallucinated objects)存在视觉伪影(visual artifacts)现有方法的局限性依赖计算成本高的采样过程严重依赖无分类器引导(Classifier-Free Guidance, CFG)推理速度慢,效率低。

2025-06-18 21:46:09 1110

原创 数据派THU | 基于图神经网络的自然语言处理:融合LangGraph与大型概念模型的情感分析实践

本文介绍了一种融合LangGraph与大型概念模型(LCMs)的情感分析实践方法。针对传统NLP技术难以处理复杂文本关系的局限,该方法结合了LCMs的概念级语义理解能力和图神经网络(GNN)的结构化关系建模优势。文章详细阐述了混合符号-语义架构的设计原理,包括符号化图表示构建、语义嵌入生成和GNN分析流程。通过LangGraph框架实现的多模块处理管道,系统能够对多渠道客户反馈进行情感分类和主题聚类分析。实验结果表明,该方法在保持语义理解深度的同时,提高了文本间关系建模的精确度,为企业级文本分析提供了更全面

2025-06-17 07:45:00 766

原创 极市平台 | Prefix Grouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!

《PrefixGrouper:高效GRPO训练新方法》摘要:针对长上下文场景下GRPO训练存在的计算冗余问题,研究者提出PrefixGrouper算法。该算法采用"共享前缀前向计算"策略,将共享前缀仅输入一次,通过创新的分组注意力机制实现计算优化。实验证明该方法在保持训练等效性的同时,显著降低FLOPs和内存占用,尤其适用于前缀远长于响应的场景。该技术即插即用,兼容现有Transformer框架,代码和报告已开源。

2025-06-17 06:00:00 1461

原创 周报 | 25.6.9-25.6.15文章汇总

【CSDN技术周报:6月前沿AI研究与应用汇总】本周精选12篇优质技术文章,涵盖大模型安全、多模态研究、模型部署等热点领域。重点包括:DeepSeek多模态模型解析、伯克利大学TULIP模型突破、ONNX部署实战经验、10种CoT增强方法等。同时提供Python实用技巧(缓存机制、上下文管理)及医学影像分割等应用案例。所有文章均来自CSDN技术社区,适合开发者深度学习与参考。文末鼓励读者互动交流,持续推动技术社区成长。

2025-06-16 16:42:23 172

原创 集智书童 | 语义分割新高度 | 英伟达提出SeNaTra空间分组层革新Backbone,性能效率双超Swin Transformer

英伟达提出SeNaTra:革新视觉Backbone的语义分割新范式 本文介绍了英伟达提出的SeNaTra(Semantic-Native Transformer),通过创新的空间分组层取代传统的均匀下采样操作,实现了Backbone级的原生分割能力。SeNaTra的核心创新在于:1)设计基于内容感知的动态分组层,根据语义边界自适应分配token;2)构建具有层次化分组能力的视觉Transformer,无需额外分割头即可生成高质量Mask;3)采用局部到密集的分组策略,平衡计算效率与分割精度。实验表明,SeN

2025-06-16 16:27:23 821

原创 ChallengeHub | LongRefiner:解决长文档检索增强生成的新思路

《LongRefiner:提升长文档检索生成效率的新方法》针对RAG系统处理长文档时面临的信息杂乱和计算成本高两大痛点,提出创新解决方案。该方法采用三步策略:首先进行双层查询分析,区分局部/全局查询类型;其次将文档结构化处理为XML格式;最后通过自适应文档精炼机制,结合局部与全局视角筛选关键内容。实验表明,该方法性能提升9%以上,同时降低10倍标记使用量和4倍延迟。研究证实该方法组件缺一不可,且在处理长文档时表现尤为突出,为智能客服、知识问答等场景提供了高效解决方案。

2025-06-15 17:28:04 711

原创 python | Python缓存机制:functools.lru_cache实现

在Python编程中,性能优化是一个常见且重要的挑战。当函数需要进行复杂计算或执行耗时的I/O操作时,如果能够缓存先前计算的结果,就可以显著提高程序的执行效率。Python标准库中的functools.lru_cache装饰器提供了一种简单而强大的缓存机制,本文将深入探讨其实现原理、使用方法及优化技巧。

2025-06-15 17:22:48 820

原创 AI生成未来 | 从零构建大模型之Transformer公式解读

《Transformer模型的数学原理与结构解析》摘要:本文详细解析了Transformer模型的数学原理和结构组成。Transformer通过自注意力机制处理序列数据,其核心由编码器-解码器框架构成。编码器采用多头注意力机制和全连接前馈网络,解码器则增加了掩蔽多头注意力机制。文章用25个数学公式阐述了注意力计算、层归一化、残差连接和位置编码等关键技术原理。具体分析了查询-键-值矩阵的注意力计算、前馈网络运算以及编解码器的完整处理流程,为理解Transformer工作机制和实现提供了理论基础。

2025-06-14 00:30:00 934

原创 DeepSeek-R1模型部署全解析:从1.5B到671B,硬件需求与适用场景详解!

本文详细解析了DeepSeek-R1模型从1.5B到671B参数版本的本地化部署方案,针对Windows、Linux和Mac三大系统提供了硬件配置、部署工具及成本评估。重点区分了满血版和蒸馏版的不同特性,推荐个人用户选择1.5B-7B轻量级模型,中小企业可考虑14B-32B量化版,科研机构则需专业服务器部署671B超大规模模型。文章还指出了显存陷阱、量化选择等常见问题,强调要结合性能、成本和需求进行理性选择,为不同用户提供了实用的部署建议。

2025-06-14 00:15:00 1274

原创 ChallengeHub | 10 种最新的思维链(Chain-of-Thought, CoT)增强方法

【前沿研究】10种思维链增强方法推动大模型推理能力突破。最新成果包括:1)防御式CoT提升抗误导能力;2)混合CoT自适应选择推理路径;3)跨模态CoT协同文本图像生成;4)推测式CoT降低66%推理延迟;5)协作式CoT支持用户交互编辑;6)语音CoT优化非主流语言处理;7)检索增强CoT融合知识图谱;8)无监督视觉CoT通过偏好反馈学习;9)主动学习CoT提升自动评分准确率24.5%;10)长链CoT解构优化训练效率。这些创新方法显著拓展了思维链技术的应用边界。

2025-06-13 17:14:40 778

原创 python | Python 上下文管理器:自定义数据库连接池

上下文管理器作为Python语言的重要特性,为资源管理提供了优雅且安全的解决方案。在企业级应用开发中,数据库连接管理是一个关键的技术挑战,不当的连接处理可能导致连接泄漏、性能下降甚至系统崩溃。通过结合上下文管理器协议与数据库连接池技术,能够构建高效、可靠的数据库访问层,确保连接资源的正确获取和释放。

2025-06-13 17:07:58 613

原创 arXiv每日学术速递 | QuantUNet:基于Brevitas库量化U-Net,结合自定义损失函数,助力医学肿瘤分割在资源受限设备实时低功耗部署 !

QuantUNet:量化U-Net助力医学肿瘤分割的低功耗部署 本文提出QuantUNet,一种针对资源受限设备的优化U-Net量化版本。通过Brevitas库进行量化感知训练,将模型精度降至平均4.24位,模型大小减少8倍,同时保持94.25%的验证准确率(仅比浮点模型低1.89%)。研究采用结合二元交叉熵、Dice损失和位宽损失的自定义损失函数,显著优化了模型效率与分割精度的平衡。该方法为可穿戴医疗设备中的实时肿瘤分割提供了高效解决方案,特别适合FPGA等低功耗硬件部署。实验表明,量化后的模型在保持高精

2025-06-11 17:19:28 1009

原创 集智书童 | 伯克利大学提出 TULIP | 重塑CLIP,跨模态对比+重建正则化双驱动,1B参数横扫SOTA

尽管CLIP和SigLIP等图像-文本对比模型近期取得了成功,但这些模型在需要高保真图像理解的视觉中心任务上往往表现不佳,例如计数、深度估计和细粒度物体识别。这些模型通过执行语言对齐,往往优先考虑High-Level语义而非视觉理解,从而削弱了它们的图像理解能力。另一方面,专注于视觉的模型在处理视觉信息方面表现出色,但在理解语言方面存在困难,限制了它们在语言驱动任务上的灵活性。

2025-06-11 17:15:08 724

原创 极市平台 | DeepSeek多模态能力起底!一探究竟Janus 系列模型:解耦统一多模态理解和生成模型的视觉编码

目标检测模型End to End推理方案的探索和尝试,说到推理和部署,其实怎么也绕不开ONNX,ONNX在成立的初衷就是希望解决神经网络在不同的训练框架、推理框架上的转换问题。所以本期的内容会从如何玩转ONNX出发,唠一唠,我们在目标检测部署遇到的那些事情。因为篇幅以及有部分内容我不太了解不敢乱说的关系,我会在这里对开放麦的内容做一点顺序和内容上进行一点的调整,我也会加入自己的一些经历和看法,让大家看得更加轻松有趣一点。

2025-06-10 17:42:31 912

原创 江大白 | AI算法炼丹之ONNX模型实战部署,心得经验分享

目标检测模型End to End推理方案的探索和尝试,说到推理和部署,其实怎么也绕不开ONNX,ONNX在成立的初衷就是希望解决神经网络在不同的训练框架、推理框架上的转换问题。所以本期的内容会从如何玩转ONNX出发,唠一唠,我们在目标检测部署遇到的那些事情。因为篇幅以及有部分内容我不太了解不敢乱说的关系,我会在这里对开放麦的内容做一点顺序和内容上进行一点的调整,我也会加入自己的一些经历和看法,让大家看得更加轻松有趣一点。

2025-06-10 17:36:12 1078

原创 周报 | 25.6.2-25.6.8文章汇总

本周技术周报汇总了多篇前沿AI研究文章,涵盖视觉推理框架VisionReasoner、CLIP改进模型DeCLIP、开源项目DeepSeek-R1、VLM-R³视觉推理系统、文本生成模型TextDiffusion等。重点内容包括:武汉大学SimROD突破检测瓶颈、阿里Qwen3技术报告发布、2.6万字大模型技术综述,以及实用Python库httpx介绍。这些文章涉及计算机视觉、语言模型、开源工具等领域的最新进展,展现了AI技术的快速迭代与应用突破。

2025-06-09 21:36:54 318

原创 开源技术人 | 大模型及智能体安全前沿研究综述(建议收藏!)

大模型和智能体的安全是一个动态演进的挑战领域。近期的研究进展令人鼓舞地展现了各种创新思路,从底层机理到顶层系统均有突破。然而,随着模型能力的增长和应用的扩张,我们也必须保持警惕,不断完善安全策略。未来的AI安全研究需要跨学科结合(机器学习、安全工程、人因科学、法规政策等),需要攻防同步推进,更需要产业界和学术界的紧密合作。只有这样,我们才能在充分释放人工智能潜能的同时,将其风险控制在可接受范围之内,确保AI技术造福人类而非伤害人类。相信在全社会的共同努力下,建立“可信任且安全”的大模型与智能体将逐步从愿景走

2025-06-09 21:32:12 1197

原创 集智书童 | 武汉大学提出 SimROD | 突破检测瓶颈!GGE模块+通道优化,效率超越SOTA方法

在本工作中,作者提出了SimROD,这是一种简单而有效的提升RAW数据目标检测性能的方法。SimROD引入了一种具有四个可学习参数的简化解决方案——全局伽马增强(GGE),在保持低模型复杂度的同时实现了有竞争力的性能。

2025-06-08 15:43:38 938

原创 python | httpx,一个超酷的 Python 库!

httpx是一个现代化的Python HTTP客户端库,融合了同步和异步请求功能。作为requests库的精神继承者,它保留类似API设计,同时原生支持async/await语法,特别适合高并发场景。主要特性包括:HTTP/2支持、连接池管理、完整认证体系、会话管理和精确超时控制。安装简单,可通过pip安装基础版或包含HTTP/2的完整版。使用示例展示了同步/异步请求、会话管理以及实际应用场景如API聚合和健康检查。httpx兼具易用性和高性能,是处理复杂网络请求的理想选择。

2025-06-08 15:41:33 678

原创 江大白 | 全网最全2.6W字综述,深入浅出大模型核心技术:微调、推理与优化指南!

本文全面综述了大语言模型(LLM)的核心技术,包括模型架构、训练方法、微调技术和优化策略。首先介绍了Transformer架构作为LLM的基础,以及预训练面临的巨大计算挑战。重点探讨了参数高效微调(PEFT)技术,如适配器、LoRA、QLoRA等方法,它们能在减少计算资源的同时保持模型性能。文章详细分析了多种量化技术(GPTQ、NF4、GGML)和模型压缩方法(剪枝、知识蒸馏),这些技术显著降低了模型部署成本。此外,还介绍了推理优化策略和提示工程技术(如思维链CoT、ReAct等),帮助提升模型输出质量。本

2025-06-05 17:07:37 1162

原创 Ai学习的老章 | 刚刚,阿里发布Qwen3 技术报告,还有官方量化模型文件

阿里发布Qwen3技术报告并推出官方量化模型版本(GGUF、AWQ、GPTQ),支持通过Ollama等工具本地部署。量化技术显著降低硬件需求,如32B模型从需4张4090显卡降至1张。实测显示,单卡运行32B-AWQ版本时仍可能遭遇显存不足问题,需调整参数;双卡配置下推理速度约18t/s。报告推荐了优化推理的采样参数设置,包括温度值、输出长度等,并强调标准化输出格式的重要性。量化技术使大模型在消费级硬件上的部署成为可能。

2025-06-05 16:52:09 1128

原创 Datawhale | Text Diffusion,来了!

本文介绍了Diffusion模型在语言生成领域的最新进展,重点分析了LLaDA系列工作如何验证Diffusion模型在8B规模下与自回归模型(AR)相当的性能。作者李崇轩团队通过RADD和LLaDA等研究,证明了离散扩散模型(MDM)在去掉时间参数t后,能够简化模型结构并提升性能。当前Diffusion模型展现出三大优势:并行推理、双向上下文建模和测试时可扩展性。虽然工业界已推出GeminiDiffusion等产品,但学术界更关注基础研究,包括解决变长生成等技术难题。该领域仍存在广阔探索空间,开源生态

2025-06-04 16:09:23 881

原创 CVHub | VLM-R³:从一次性理解到动态聚焦的视觉推理进化

本文提出VLM-R³框架,旨在提升视觉语言模型在复杂推理任务中的动态视觉聚焦能力。通过区域识别(Region)、推理(Reasoning)和优化(Refinement)三个核心模块,模型能够实现"观察-推理-再观察"的闭环流程。研究贡献包括:1)构建VLIR数据集,提供细粒度图文交错监督;2)提出R-GRPO强化学习策略,优化视觉决策能力。实验表明,该方法在ScienceQA等任务上显著优于基线模型14.33%,尤其在需要精细视觉理解的场景表现突出。消融研究验证了图文交错思维链和强化学习

2025-06-04 16:06:43 1060

原创 集智书童 | RL颠覆视觉传统 | VisionReasoner 首提统一框架,检测/分割/计数3类任务超越YOLO-World等专用模型

大型视觉语言模型展现出处理多样化视觉感知任务的内生能力。在本文中介绍了VisionReasoner,一个能够在共享模型内推理和解决多种视觉感知任务的统一框架。具体而言,通过设计新颖的多目标认知学习策略和系统化的任务重构,VisionReasoner增强了其推理能力以分析视觉输入,并在统一框架内处理多样化的感知任务。该模型在生成结构化推理过程后,才会根据用户 Query 提供所需的输出。

2025-06-03 17:23:21 1171

原创 周报 | 25.5.26-25.6.1文章汇总

本周技术周报汇总了多篇优质文章,涵盖计算机视觉、大模型推理、目标检测、数据库、RAG等多个领域。清华团队提出视觉大一统模型新方向,YOPOv2-Tracker实现10倍跟踪提速,OpenAI发布o3/o4-mini突破视觉推理。此外还包括大模型微调方案、Qwen3部署指南、TuGraph图数据库实践等内容。这些文章既有前沿研究,也有实用工具推荐(如Github源码阅读神器DeepWiki),涉及Python库、专业图表绘制等实用技巧。欢迎读者点赞收藏,共同学习进步。

2025-06-03 17:21:49 479

原创 江大白 | 新版DeepSeek-R1正式开源发布!(附项目地址)

DeepSeek-R1-0528重磅开源,时隔四个月实现飞跃升级。思考更缜密,编程更强悍,长时推理表现惊艳,全面对标SOTA开源模型,堪称开源圈的又一巅峰之作。就在昨天凌晨,新版DeepSeek-R1正式开源了!DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。

2025-06-02 00:45:00 1380

全国省-市-区城市经纬度汇总.csv

简介:全国主要区县城市经纬度汇总。我国省级行政区划分:23个省、5个自治区、4个直辖市、2个特别行政区,合计34个省级行政区。 省:河北省、山西省、辽宁省、吉林省、黑龙江省、江苏省、浙江省、安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、海南省、四川省、贵州省、云南省、陕西省、甘肃省、青海省、台湾省。 自治区:内蒙古自治区,广西壮族自治区,宁夏回族自治区,新疆维吾尔自治区,西藏自治区。 直辖市:北京市,天津市,上海市,重庆市。 特别行政区:香港特别行政区,澳门特别行政区。

2020-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除