- 博客(3303)
- 资源 (78)
- 收藏
- 关注
转载 ICCV 2025第一届“多模态推理与慢思考:迈向二类系统及更高层次(MARS2)”
未发表论文(ICCV 2025会议格式)或已发表工作的摘要/海报,内容涵盖但不限于上述主题。大型推理模型(LRMs)的突破性进展正推动多模态智能迈向新高度,但其在。:多模态推理、慢思考范式、指令驱动模型、开放世界泛化。:美国夏威夷檀香山(与ICCV 2025同期)之间仍面临关键挑战。的实践路径(思维链/神经符号推理/多步推断)二类系统(System 2)级推理。(ModelScope社区)(INSAIT索非亚大学)(新加坡南洋理工大学)(中国科学院自动化所)Workshop简介。Workshop简介。
2025-05-30 13:28:34
1
转载 博士招生 | 西湖大学人工智能与生物医学影像实验室招募,多模态大模型方向
实验室负责人杨林博士现任西湖大学终身教授(Tenured Professor),近年来在Nature Machine Intelligence、Nature Medicine、TPAMI等国际期刊及CVPR、MICCAI、ECCV、ICLR等顶级会议论文集上发表科研论文一百余篇,引用次数已达一万余次,曾获MICCAI会议青年科学家奖项(Young Scientist Award)及MICCAI会议青年科学家最佳论文奖(Young Investigator Best Paper Award)。
2025-05-30 13:28:34
转载 TPAMI 2025 | 在4D时空中追踪万物!国防科大提出首个长时场景流估计方法 SceneTracker
通过详细的实验,SceneTracker在处理3D空间遮挡和抗深度噪声干扰方面显示出卓越的能力,高度符合LSFE任务的需求。从图4可以看出,面对相机和场景中动态物体同时进行的复杂运动,我们方法始终能够输出平滑、连续且精确的估计结果。其能够快速且精确地捕捉4D时空(RGB-D视频)中任意目标点的3D轨迹,从而使计算机深入了解物体在特定环境中的移动规律和交互方式。框架的第一步是标记感兴趣点,我们开发了一个定制化的标注软件并标记第一帧左目图像中感兴趣点的2D坐标。我们的目标是跟踪一个3D视频中的3D点。
2025-05-29 11:31:07
11
转载 智源研究院、中科院自动化所、大连理工联合发布ETT:端到端调优重塑视觉tokenizer优化范式
在现有的多模态预训练框架中,如 Emu3 等工作,虽然通过将图像、文本等多模态数据编码为离散 tokens 实现了统一的序列建模,但在实际操作中,这些方法仅仅利用了冻结的视觉 tokenizer 的离散索引,这不仅极大地浪费了视觉 tokenizer 的丰富特征表示能力,还阻碍了端到端训练的实现,使得视觉 tokenizer 无法根据下游任务的具体需求进行针对性优化。这表明 ETT 能够在保持图像重建质量的同时,增强视觉 tokenizer 的语义表达能力,为进一步的多模态任务提供更优质的视觉表示。
2025-05-28 13:51:12
2
转载 自适应推理框架助力LLM/MLLM高效推理!提升精度同时降低输出Token数量!
在高置信度场景,直接输出简短答案,提升推理效率。实验表明,在多模态(如DocVQA、ChartQA)和文本推理(如GSM8K、MathQA)任务中,CAR的token使用量较纯长文本推理减少45%以上,平均准确率提升6%-8%,在Qwen2.5、Llama3.1等模型上均优于基线方法,尤其在数学推理任务中显著减少冗余步骤。为此,我们提出基于置信度的自适应推理框架(CAR),它能根据模型困惑度动态选择短回答或详细的长文本推理:首先生成简短回答并评估困惑度,仅在模型置信度低(困惑度高)时触发推理。
2025-05-27 19:44:27
9
转载 CVPR 2025 | 单目人头重建最新SOTA方法!清华与IDEA发布HRAvatar:高质量可重光照头像化身
为实现真实重光照,该方法将头像外观分解为反照率、粗糙度、菲涅尔反射等材质属性,并引入反照率伪先验以更好解耦材质信息,使用简化的BRDF物理模型进行着色。相比3DGS 使用球谐函数建模点的外观,该方法采用一种新的外观建模方法,将外观分解为三个属性:反照率、粗糙度 和菲涅尔基础反射率,并采用BRDF 物理渲染模型进行着色。现有面部跟踪方法获取的表情参数不够准确,为解决表情参数误差影响面部重建质量的问题,该方法提出使用表情编码器,更精确提取表情参数。
2025-05-27 13:54:14
1
转载 多模态文档理解新挑战!字节跳动、华中科技大学联合发布WildDoc基准,揭示真实场景下MLLMs的文档理解鲁棒性短板
WildDoc选取了3个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。通过更多的增强技术来模拟真实世界的条件,如变化的光照、阴影等,让模型在训练中接触到更多样化的场景,从而提高其适应能力。收集更多的真实世界文档图像,丰富训练数据集,让模型在更多的“实战”中积累经验,提升性能。
2025-05-26 13:28:47
10
转载 【征稿&挑战赛】ACM MM 2025 第一届“多模态大模型统一理解和生成”研讨会&挑战赛
投稿须采用ACM MM 2025会议模板,论文长度可为4到8页(不含参考文献),无需区分长短论文。不同于传统将理解与生成分而治之的思路,MUCG 专注 一体化 MLLM 的最新进展和未来蓝图,欢迎学界与业界同行共同碰撞思维、共创多模态 AI 新纪元!多模态大语言模型(MLLM)取得了飞速发展,然而理解与生成仍被割裂在不同范式之中。• 💎 Scope-B: 单模态全才(图像、视频、音频、3D 等专项能力)多模态大模型统一理解和生成”研讨会与挑战赛(MLLM-MUCG 2025)
2025-05-25 20:46:32
1
转载 用于图像分割的自监督学习(Self-Supervised Learning)方法综述
对语义分割而言,通过像素级自监督任务(如CPC的密集预测、生成型补全等)可获得更精细的特征,有研究将局部对比学习(如PixelContrast、DenseCL等)应用于密集分割。MoCo/BYOL/SwAV 等:尽管本综述侧重三类任务,上述方法后续涌现了动量对比(MoCo)、自举对比(BYOL)、SwAV(交换视图聚类)等改进,它们均围绕实例对比或聚类学习进一步提升表示能力,但核心思想仍是最大化相似视图间一致性。实例分割任务则可能结合区域级的SSL任务,例如利用对比学习或伪标签生成来学习实例级特征。
2025-05-22 19:23:29
37
转载 CVPR 2025 | 中科大提出基于上下文调制的神经视频压缩
具体地,计算导向上下文和传播上下文在全局与局部特征空间上的余弦相似度,并构造成损失函数:全局特征的余弦相似度希望越大越好(鼓励全局信息对齐),而局部特征的余弦相似度则希望降低(鼓励细节特征差异),以保证两类上下文的互补性。例如,在表1所示测试结果中,DCVC-DC和DCVC-FM的平均BD-Rate分别为-14.1%和-9.9%,而所提出的DCMVC达到了-19.4%;在周期为-1的设置下(表2),DCVC-DC和DCVC-FM平均分别为-9.3%和-12.6%,而DCMVC则提高到-22.7%。
2025-05-21 22:28:23
45
转载 ICML2025 | 细粒度图文对齐突破,360人工智能研究院发布全新一代图文跨模态模型FG-CLIP,开源并可商用
当前普遍使用的图文跨模态模型如OpenAI CLIP,EVA-CLIP等,仍是基于第一代的整体图文对比学习算法训练得到,它们擅长捕捉全局信息,却难以分辨物体的细微属性差异,在处理细粒度视觉理解时面临非常大的挑战。例如,区分“一只黑色的狗”与“一只深棕色的狗”,或识别“陶瓷茶杯”与“玻璃茶杯”的材质差异,往往会让模型陷入困惑。视觉与语言的跨模态理解是大模型时代众多关键技术与业务应用的核心基石,如多模态大语言模型,图像生成模型,视频生成模型等,都要用到图文跨模态模型进行视觉信息和/或文本信息的编码和模态对齐。
2025-05-20 18:05:56
65
转载 Medical Image Analysis:医学图像分割最新进展综述
医学图像分割(Medical Imaging Segmentation,MIS)在计算机辅助诊断、治疗规划和疾病监测等领域具有关键作用,但由于数据获取受限、标注复杂、目标结构多样以及模态差异等因素,要得到准确的分割结果依然困难。相关仓库:https://github.com/faresbougourzi/Awesome-DL-for-Medical-Imaging-Segmentation。像素级标注耗时费力,需多位专家反复校验,标注要求极高。:模型复杂、对资源依赖大,亟需轻量、高效、可解释的部署方案。
2025-05-19 21:05:22
111
转载 博士后 | 西湖大学机器智能实验室招聘,具身大模型、强化学习方向
西湖大学机器智能实验室(Machine Intelligence Laboratory, MiLAB),是国内知名的机器人具身智能实验室,专注于强化学习和机器人具身智能领域研究,旨在赋予机器人像人一样的行为能力。研究Data Efficiency相关的深度强化学习基础算法,包括但不限于小样本强化学习、元强化学习、迁移强化学习、持续强化学习、鲁棒强化学习等,发表人工智能顶会论文。对来杭工作符合条件的全球本科及以上学历应届毕业生(含毕业5年内的回国留学人员、外国人才),杭州市发放生活补贴,其中博士10万元。
2025-05-17 20:44:00
39
转载 92ms极速Token响应!VITA团队开源实时语音大模型,推理效率暴增5倍
本文介绍了 VITA-Audio,这是一个轻量级框架,其核心在于引入独立高效的多重跨模态令牌预测(MCTP)模块,能够直接从文本 Token 与 LLM Hidden States 中生成音频响应,无需依赖 LLM 的全局语义建模,仅通过简单映射即可完成文本隐藏态到音频令牌的转换。在前两次前向中仅激活部分 MCTP 模块,保以维持文本与音频 Token 的合理配比(1:2),随后逐步激活部模块,通过动态调节文本/音频 Token 输出比例,实现生成速度与质量的最优平衡。
2025-05-15 15:32:36
1016
转载 哈工大,西工大,武大,广西师大联合提出卷积神经网络在图像超分辨上的应用(174篇论文应用)
随后,根据线性和非线性的缩放图像方式给出了基于插值的卷积神经网络图像超分辨方法(双三次插值算法、最近邻插值法、双线性插值算法)、基于模块化的卷积神经网络超分辨方法(转置卷积、亚像素层和元上采样模块),分析这些方法在非盲图像超分辨和盲图像超分辨问题上的动机、原理、区别和性能最后,本文给出卷积神经网络在图像超分辨的未来研究、挑战和总结全文。因此,轻量级网络的图像超分辨研究非常有必要的。由于复杂的拍摄场景、运动的拍摄设备以及运动的目标,导致单源的图像引导深度网络获得图像超分辨模型在真实场景中的应用受限。
2025-05-14 21:06:23
49
转载 CVPR2025|MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化
具体而言,本方法首先引入主体定位模块(Subject Location Module,SLM)对图像进行精准定位,然后通过三个并行扩散过程中的自注意力注入与查询机制,在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。当前,主流的图像定制化方法主要沿着三个技术路线发展:基于反演优化(inversion-based)的方法、基于多模态编码器(multimodal encoder-based)的方法,以及新兴的基于注意力控制(attention control-based)的方法。
2025-05-13 12:31:11
22
转载 字节跳动提出Mogao模型:开启 AIGC 从“能写会画”到“边写边画”
另外还使用了视频帧和相应字幕的数据,研究人员训练了一个视觉-语言模型,用以为视频中抽帧采样的每一帧生成对应的字幕说明,最终将图像帧和生成的字幕交织在一起,构成训练样本。Mogao通过创新的架构设计和高效的训练策略,成功实现了交错多模态生成,在多模态理解、文本到图像生成和零样本图像编辑等任务中展现了卓越性能。例如,它可以生成一段描述森林的文字,随后生成一张森林的插图,然后继续生成下一段文字,形成一个连贯的故事。的创新模型,它通过统一框架实现了交错多模态生成,为AI在创意和内容生成领域的应用开辟了新可能性。
2025-05-12 22:05:49
160
转载 T-Rex Label 上线 DINO-X 模型预标注,52CV 粉丝专属福利来袭
为了进一步拓展 AI 标注的能力边界,T-Rex Label 在已有 T-Rex2 智能标注的基础上,正式上线 DINO-X 预标注功能,这意味着用户只需选择图片、定义需要标注的类别,即可一键批量自动标注。(1)老粉福利:在文章发布之前已经关注“我爱计算机视觉”公众号的粉丝,在提供 T-Rex Label 用户 ID 后,将免费获得价值 50 元人民币的 T 豆(共计 1000 颗 ,使用预标注功能每张图片需消耗 3 颗 T 豆,即可标注约 330 张图片)。图3 DINO-X 的目标检测性能指标对比。
2025-05-09 18:10:44
39
转载 KuaiMod | 更高准确率、超低举报率的工业级自动化短视频质量判别框架
在 CoT2Tag 过程中,为了将推理过程结构化,我们为视频质量判别任务设计了专门的流程,具体来说,我们将视频质量判别分成内容提取,内容分析,中期检查,用户反馈分析和总结判断五个状态,由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。这意味着,只有能够真正。1、判别标准的实时性:在诸多判别方法中,Perspective 是唯一的工业级内容判别 API,但由于其使用的模型训练时间较早,且无法微调,因此相较于其他可微调的方法以及更新的 GPT-4o,准确率较低。
2025-05-09 18:10:44
58
转载 ICML 2025 | 加州伯克利和 MIT 提出 Sparse VideoGen,挖掘模型稀疏性,加速视频生成
为此,研究者对这两个模块进行了算子优化,QK-Norm 的吞吐量在所有场景下均优于 PyTorch 的标准实现,平均加速比为 7.4 倍,。该方法通过将张量从帧为主的布局转换为 token 为主(token-major)的布局,使得 Temporal Head 所需的 token 在内存中呈现连续排列,从而优化了内存访问模式。然而,传统的张量布局通常是以帧为主(frame-major)的顺序存储数据,即同一帧的所有 token 连续存储,而不同帧的相同位置的 token 则分散开来。
2025-05-08 13:32:35
52
转载 TPAMI 2025 | 更快、更灵活的 Transformer图像复原网络
受到堆叠多层3 * 3卷积可获得更大感受野的启发,我们堆叠了几个小卷积核的DCN以获得更丰富的采样点。如表10所示,为了验证近似误差的影响,我们在Swin的窗口内对softmax-attention进行泰勒展开,我们发现,对softmax-attention进行更高阶的展开能取得更好的性能,这可能时因为更优的数值近似和attention map具有更高的秩。理论上,通过学习的全秩,可以提高T-MSA++的注意力图的秩,从而在大多数情况下实现更高的秩,并且T-MSA++表现出更丰富的特征表示。
2025-05-07 11:47:32
124
转载 Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49,在SPGISpeech上的WER为1.97,这一表现超过了多款商用ASR服务,如ElevenLabs/Scribe、REV.AI/Fusion等,同时也优于经典的OpenAI Whisper large v3模型。作为一款轻量级但功能强大的音频模型,Aero-1-Audio在参数效率和性能之间实现了出色的平衡。在处理长音频时,其他模型的性能都有明显下降,而Aero-1-Audio的性能下降最小,展示了其处理长音频的鲁棒性。
2025-05-02 20:20:23
79
转载 Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括。最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。
2025-04-30 15:01:24
66
转载 CVPR25 | CV 微调卷出天际,Mona:我小,我强,我省资源
随着现代深度学习的发展,训练数据和模型规模的增加成为模型性能的重要增长点,但随之而来的是模型的垂直应用和微调成本和难度的提升。Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化在小于 5% 的参数成本下首次突破了全量微调的性能枷锁,为视觉微调提供了新的解决方案。Mona 方法通过引入多认知视觉滤波器和优化输入分布,仅调整 5% 的骨干网络参数,就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果,显著降低了适配和存储成本,为视觉模型的高效微调提供了新的思路。
2025-04-25 20:40:23
182
转载 专刊征稿:面向机器人持续感知的具身多模态数据融合
投稿截止:October 20th, 2025。投稿开放:October 1st, 2025。面向机器人持续感知的具身多模态数据融合)欢迎大家关注、转发。》(CCF-C类期刊)上组织的。关注公众号,发现CV技术之美。同济大学MIAS Group。
2025-04-24 16:43:10
82
转载 TMI 2025 | 最新医疗图像分割模型:Zig-RiR,精准分割二维、三维医疗图像
在二维ISIC数据集和三维ACDC, Synapse数据集上,Zig-RiR都表现出极高的分割性能,表明它在提取目标的边界和区域时非常准确。Zig-RiR模型通过创新的嵌套结构和锯齿状扫描设计,成功实现了对二维、三维医疗图像的高效率且精准的分割,为该领域提供了先进的解决方案。,提出一种新颖的医疗图像分割模型 Zigzag RWKV-in-RWKV (Zig-RiR),可用于精准分割二维、三维的医疗图像。Transformer的自注意力机制导致二次方级别的计算复杂度,限制了模型在高分辨率图像上的应用。
2025-04-24 16:43:10
469
转载 ICLR2025 | 打破次元壁!同济提出FaceShot,让表情包、玩具也能“开口说话”!
相比现有方法,FaceShot 在身份保持(ArcFace)、图像质量(HyperIQA)和动作还原(Point Tracking)等多个指标上均取得领先,尤其在结构不规则、风格差异大的角色(如玩偶、卡通形象、动物)上表现更为稳定。
2025-04-23 12:07:02
137
转载 UniToken:为统一多模态理解与生成打造信息完备的视觉表征
通过测试发现,第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强,故在本阶段进一步引入高质量多模态对话(423K)与精细化图像生成数据(100K),进一步增强模型对复杂指令的跟随能力。基于第一阶段对齐后的双边编码器所提供的完备视觉信息,本阶段在大规模图文理解与图像生成数据集上联合训练,通过控制数据配比(10M:10M)以均衡提升模型理解与生成任务的性能。ViT端到端微调:在模型的全训练流程中,动态微调连续视觉编码器的权重,结合精细的学习率控制策略以避免模型崩溃,进而适应广泛的任务场景。
2025-04-22 14:33:18
105
转载 自回归的捍卫者来了:复旦联手字节Seed开源纯AR图像生成模型
最后是关于效率问题。带着好奇的心态,来自复旦视觉与学习实验室和字节Seed的研究者们希望“验一验”自回归视觉生成模型的能力,他们保持“Next-token prediction”这样简洁优美的形式,而通过优化训练和推理过程来探究自回归视觉生成是否可以像扩散模型一样取得不错的文生图效果。离散的token必然带来更多的信息损失:当下改进视觉tokenizer也是一个备受关注的方向,最新的方法无论是离散或连续都可以取得非常好的重建效果(至少不会制约生成模型),因此相信这一点不会是制约两条路线的核心原因;
2025-04-21 19:42:16
132
转载 解锁 AI 开发新高度:AI 工作站与 NVIDIA AI Workbench 全栈解决方案
凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。性能高达上一代的 3 倍,支持 FP4 精度,可缩短 AI 模型处理时间,同时减少显存占用,实现 LLM 和生成式 AI 的本地微调。
2025-04-18 13:27:55
78
转载 斩获GitHub2.2k星!腾讯优图联合南京大学开源实时视频-语音交互大模型VITA-1.5
通过缓解模态之间的固有冲突,VITA-1.5 在视觉和语音理解方面实现了强大的能力,能够在不依赖于独立的 ASR 和 TTS 模块的情况下实现高效的 Speech-to-Speech 能力。包括 LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA,以及从LLaVA-OV 中采样的子集(如一般图像问答和数学推理数据),用于训练模型回答基于图像的问题,并执行视觉推理任务。在 VITA-1.5 的推理阶段,仅使用 Codec 的解码器。
2025-04-18 13:27:55
678
转载 “实习生也月入过万”,AI行业严重缺人?
全程实战源代码讲解,课程通俗易懂,所有算法均给出相应的实战案例及应用项目,内容覆盖200+案例,30+应用场景。但除了努力之外,我们更应该清楚的知道, 哪些技术需要重点掌握,学习时频繁踩坑,最终浪费大量时间,所以有一套实用的课程用来跟着学习是非常有必要的。我们将由浅入深的讲解视觉必备基础知识点、以及大厂面试必问的实战项目等全面细致的讲解,相信能给你带来启发和收获!拥有 1-3 年工作经验的,10K 是底线,25K 是常态,在 30 岁前年薪 50W+ 的也大有人在。确保你掌握的永远是当下最新最前沿的内容。
2025-04-16 12:31:18
1411
转载 IJCAI 2025 深度伪造检测、定位、可解释性研讨会暨挑战赛正式启动!
同时,研讨会还专设深度伪造检测与定位挑战赛,分设图片赛道和音视频赛道,旨在弥补现有检测算法在精准定位伪造区域与多模态音视频协同伪造识别方面的短板,提升AI时代内容安全水位。研讨会将汇聚全球顶尖学者,共同攻克多模态伪造、弱监督伪造定位、伪造可解释性、生成式AI对抗与防御等核心技术瓶颈,推动建立可验证、可追溯的生成式AI内容安全分析体系。蚂蚁数科联合新加坡科技研究局人工智能前沿研究中心,南洋理工大学,清华大学,中科院自动化所,合肥工业大学,安徽省数字安全重点实验室等多家机构。关注公众号,发现CV技术之美。
2025-04-16 12:31:18
352
转载 画质理解新突破!北大字节提出Q-Insight,让大模型深度思考推理!
通过这种创新思路,Q-Insight在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,有望为图像画质增强、AI内容生成等多个领域提供强有力的技术支撑。Q-Insight首次将强化学习引入图像质量评估任务,创造性地运用了“群组相对策略优化”(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,实现对图像质量的深度理解。评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因;
2025-04-15 22:21:14
130
转载 【重温经典】 MOE模型的早期探索—分层深度卷积网络HD-CNN
列(d)-(f):前3个细分类模块得到的Top-5预测结果。这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师(https://i.cs.hku.hk/~yzyu/index.html)在UIUC的博士生严志程主导完成,首次在深度神经网络中成功实现了"分而治之"的层次化推理,并达到了当时十分优秀的性能,成为深度学习模型结构创新的经典案例。区分"苹果"和"公交车"易如反掌,因为二者在很多视觉属性上都有显著的差异,但辨别"苹果"与"橙子"则需要更精细的特征捕捉,因为二者的视觉特征较为接近。
2025-04-12 21:57:41
162
转载 时空理解基准STI-Bench:评估MLLMs的精确时空理解能力
包含8大类挑战性任务,强制模型进行精确定量的估计和预测,例如:物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。通过对包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在内的顶尖MLLM进行广泛测试,发现它们在STI-Bench上的表现普遍不佳,尤其是在需要精确定量(如距离、运动参数)的任务上得分很低,显示其精确时空理解能力远未达到实际应用的要求。MLLMs真的具备精确时空理解能力吗?最新 AI 进展报道。
2025-04-11 16:34:14
59
转载 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!
整理了180多个基于学习的方法。将一对红外图像和可见光图像进行融合,这一过程称为红外-可见光图像融合,是计算机视觉领域的一个基础性关键的任务,融合图像具有。这些旨在为红外与可见光图像融合领域的研究人员,工程师和爱好者提供一个核心库,促进红外-可见图像融合技术的进步和协作。我们不仅对大量的IVIF方法进行了分类,还对这些方法进行了极为全面的评价,包括配准、融合及其他后续下游操作等任务的。3)为了阐明面向应用的红外与可见光图像融合方法,我们用分层和结构化的方式系统地概述了技术层面和数据集的最新进展。
2025-04-10 22:38:23
133
转载 【前沿解读】CVPR2025 | SAM赋能多模态图像融合:让每一滴语义信息都发挥价值
提出的双层优化驱动蒸馏机制结合创新的三元组损失函数,在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络,使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型,大幅降低了计算复杂度,同时保持了卓越的融合性能,极大提高了模型在实际场景中的应用价值。通过充分利用SAM对分割任务的固有适应性(如图右下角所示),我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能,更确保了实际推理阶段的高效可行性,为多模态图像融合领域提供了新的技术范式。
2025-04-09 16:12:34
387
转载 CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo
我们在 PyTorch 中实现了 FoundationStereo 模型,使用混合数据集进行训练,包括我们提出的 FSD 数据集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公开数据集。训练时使用 22 次 GRU 迭代更新,而在后续实验中(除非特别说明),我们使用相同的基础模型进行零样本推理,采用 32 次精炼迭代和 416 的最大视差范围。现有方法依赖目标域微调,且受限于网络结构或数据规模。
2025-04-08 21:02:45
716
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
数学建模个人经验谈共九个部分
2010-05-19
2010成都信息工程学院研究生数模赛题
2010-05-19
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
经过裁剪预处理的人脸识别研究用FERET数据库
2010-05-06
handwriten digit recognition by combined classifiers
2010-09-25
Automatic visual/IR image registration
2010-09-25
Statistical Pattern Recognition:A Review
2010-09-25
流形学习问题manifold study
2010-06-29
贝叶斯决策理论机器学习数据挖掘
2010-06-29
OpenCV1.0安装文件
2010-06-25
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
“中兴捧月”软件测试自动化附件
2010-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人