我爱计算机视觉-CSDN博客

转载 ICCV 2025第一届“多模态推理与慢思考：迈向二类系统及更高层次（MARS2）”

未发表论文（ICCV 2025会议格式）或已发表工作的摘要/海报，内容涵盖但不限于上述主题。大型推理模型（LRMs）的突破性进展正推动多模态智能迈向新高度，但其在。：多模态推理、慢思考范式、指令驱动模型、开放世界泛化。：美国夏威夷檀香山（与ICCV 2025同期）之间仍面临关键挑战。的实践路径（思维链/神经符号推理/多步推断）二类系统（System 2）级推理。（ModelScope社区）（INSAIT索非亚大学）（新加坡南洋理工大学）（中国科学院自动化所）Workshop简介。Workshop简介。

2025-05-30 13:28:34 1

转载博士招生 | 西湖大学人工智能与生物医学影像实验室招募，多模态大模型方向

实验室负责人杨林博士现任西湖大学终身教授(Tenured Professor)，近年来在Nature Machine Intelligence、Nature Medicine、TPAMI等国际期刊及CVPR、MICCAI、ECCV、ICLR等顶级会议论文集上发表科研论文一百余篇，引用次数已达一万余次，曾获MICCAI会议青年科学家奖项（Young Scientist Award）及MICCAI会议青年科学家最佳论文奖（Young Investigator Best Paper Award)。

2025-05-30 13:28:34

转载 TPAMI 2025 | 在4D时空中追踪万物！国防科大提出首个长时场景流估计方法 SceneTracker

通过详细的实验，SceneTracker在处理3D空间遮挡和抗深度噪声干扰方面显示出卓越的能力，高度符合LSFE任务的需求。从图4可以看出，面对相机和场景中动态物体同时进行的复杂运动，我们方法始终能够输出平滑、连续且精确的估计结果。其能够快速且精确地捕捉4D时空（RGB-D视频）中任意目标点的3D轨迹，从而使计算机深入了解物体在特定环境中的移动规律和交互方式。框架的第一步是标记感兴趣点，我们开发了一个定制化的标注软件并标记第一帧左目图像中感兴趣点的2D坐标。我们的目标是跟踪一个3D视频中的3D点。

2025-05-29 11:31:07 11

转载智源研究院、中科院自动化所、大连理工联合发布ETT：端到端调优重塑视觉tokenizer优化范式

在现有的多模态预训练框架中，如 Emu3 等工作，虽然通过将图像、文本等多模态数据编码为离散 tokens 实现了统一的序列建模，但在实际操作中，这些方法仅仅利用了冻结的视觉 tokenizer 的离散索引，这不仅极大地浪费了视觉 tokenizer 的丰富特征表示能力，还阻碍了端到端训练的实现，使得视觉 tokenizer 无法根据下游任务的具体需求进行针对性优化。这表明 ETT 能够在保持图像重建质量的同时，增强视觉 tokenizer 的语义表达能力，为进一步的多模态任务提供更优质的视觉表示。

2025-05-28 13:51:12 2

转载自适应推理框架助力LLM/MLLM高效推理！提升精度同时降低输出Token数量！

在高置信度场景，直接输出简短答案，提升推理效率。实验表明，在多模态（如DocVQA、ChartQA）和文本推理（如GSM8K、MathQA）任务中，CAR的token使用量较纯长文本推理减少45%以上，平均准确率提升6%-8%，在Qwen2.5、Llama3.1等模型上均优于基线方法，尤其在数学推理任务中显著减少冗余步骤。为此，我们提出基于置信度的自适应推理框架（CAR），它能根据模型困惑度动态选择短回答或详细的长文本推理：首先生成简短回答并评估困惑度，仅在模型置信度低（困惑度高）时触发推理。

2025-05-27 19:44:27 9

转载 CVPR 2025 | 单目人头重建最新SOTA方法！清华与IDEA发布HRAvatar：高质量可重光照头像化身

为实现真实重光照，该方法将头像外观分解为反照率、粗糙度、菲涅尔反射等材质属性，并引入反照率伪先验以更好解耦材质信息，使用简化的BRDF物理模型进行着色。相比3DGS 使用球谐函数建模点的外观，该方法采用一种新的外观建模方法，将外观分解为三个属性：反照率、粗糙度和菲涅尔基础反射率，并采用BRDF 物理渲染模型进行着色。现有面部跟踪方法获取的表情参数不够准确，为解决表情参数误差影响面部重建质量的问题，该方法提出使用表情编码器，更精确提取表情参数。

2025-05-27 13:54:14 1

转载多模态文档理解新挑战！字节跳动、华中科技大学联合发布WildDoc基准，揭示真实场景下MLLMs的文档理解鲁棒性短板

WildDoc选取了3个常用的具有代表性的文档场景作为基准（Document/Chart/Table），包含超过 12,000 张手动拍摄的图片，覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素，且可与现有的电子基准数据集表现进行对比。通过更多的增强技术来模拟真实世界的条件，如变化的光照、阴影等，让模型在训练中接触到更多样化的场景，从而提高其适应能力。收集更多的真实世界文档图像，丰富训练数据集，让模型在更多的“实战”中积累经验，提升性能。

2025-05-26 13:28:47 10

转载【征稿&挑战赛】ACM MM 2025 第一届“多模态大模型统一理解和生成”研讨会&挑战赛

投稿须采用ACM MM 2025会议模板，论文长度可为4到8页（不含参考文献），无需区分长短论文。不同于传统将理解与生成分而治之的思路，MUCG 专注一体化 MLLM 的最新进展和未来蓝图，欢迎学界与业界同行共同碰撞思维、共创多模态 AI 新纪元！多模态大语言模型（MLLM）取得了飞速发展，然而理解与生成仍被割裂在不同范式之中。• 💎 Scope-B: 单模态全才（图像、视频、音频、3D 等专项能力）多模态大模型统一理解和生成”研讨会与挑战赛（MLLM-MUCG 2025）

2025-05-25 20:46:32 1

转载用于图像分割的自监督学习（Self-Supervised Learning）方法综述

对语义分割而言，通过像素级自监督任务（如CPC的密集预测、生成型补全等）可获得更精细的特征，有研究将局部对比学习（如PixelContrast、DenseCL等）应用于密集分割。MoCo/BYOL/SwAV 等：尽管本综述侧重三类任务，上述方法后续涌现了动量对比（MoCo）、自举对比（BYOL）、SwAV（交换视图聚类）等改进，它们均围绕实例对比或聚类学习进一步提升表示能力，但核心思想仍是最大化相似视图间一致性。实例分割任务则可能结合区域级的SSL任务，例如利用对比学习或伪标签生成来学习实例级特征。

2025-05-22 19:23:29 37

转载 CVPR 2025 | 中科大提出基于上下文调制的神经视频压缩

具体地，计算导向上下文和传播上下文在全局与局部特征空间上的余弦相似度，并构造成损失函数：全局特征的余弦相似度希望越大越好（鼓励全局信息对齐），而局部特征的余弦相似度则希望降低（鼓励细节特征差异），以保证两类上下文的互补性。例如，在表1所示测试结果中，DCVC-DC和DCVC-FM的平均BD-Rate分别为-14.1%和-9.9%，而所提出的DCMVC达到了-19.4%；在周期为-1的设置下（表2），DCVC-DC和DCVC-FM平均分别为-9.3%和-12.6%，而DCMVC则提高到-22.7%。

2025-05-21 22:28:23 45

转载 ICML2025 | 细粒度图文对齐突破，360人工智能研究院发布全新一代图文跨模态模型FG-CLIP，开源并可商用

当前普遍使用的图文跨模态模型如OpenAI CLIP，EVA-CLIP等，仍是基于第一代的整体图文对比学习算法训练得到，它们擅长捕捉全局信息，却难以分辨物体的细微属性差异，在处理细粒度视觉理解时面临非常大的挑战。例如，区分“一只黑色的狗”与“一只深棕色的狗”，或识别“陶瓷茶杯”与“玻璃茶杯”的材质差异，往往会让模型陷入困惑。视觉与语言的跨模态理解是大模型时代众多关键技术与业务应用的核心基石，如多模态大语言模型，图像生成模型，视频生成模型等，都要用到图文跨模态模型进行视觉信息和/或文本信息的编码和模态对齐。

2025-05-20 18:05:56 65

转载 Medical Image Analysis：医学图像分割最新进展综述

医学图像分割（Medical Imaging Segmentation，MIS）在计算机辅助诊断、治疗规划和疾病监测等领域具有关键作用，但由于数据获取受限、标注复杂、目标结构多样以及模态差异等因素，要得到准确的分割结果依然困难。相关仓库：https://github.com/faresbougourzi/Awesome-DL-for-Medical-Imaging-Segmentation。像素级标注耗时费力，需多位专家反复校验，标注要求极高。：模型复杂、对资源依赖大，亟需轻量、高效、可解释的部署方案。

2025-05-19 21:05:22 111

转载博士后 | 西湖大学机器智能实验室招聘，具身大模型、强化学习方向

西湖大学机器智能实验室（Machine Intelligence Laboratory, MiLAB），是国内知名的机器人具身智能实验室，专注于强化学习和机器人具身智能领域研究，旨在赋予机器人像人一样的行为能力。研究Data Efficiency相关的深度强化学习基础算法，包括但不限于小样本强化学习、元强化学习、迁移强化学习、持续强化学习、鲁棒强化学习等，发表人工智能顶会论文。对来杭工作符合条件的全球本科及以上学历应届毕业生（含毕业5年内的回国留学人员、外国人才），杭州市发放生活补贴，其中博士10万元。

2025-05-17 20:44:00 39

转载 92ms极速Token响应！VITA团队开源实时语音大模型，推理效率暴增5倍

本文介绍了 VITA-Audio，这是一个轻量级框架，其核心在于引入独立高效的多重跨模态令牌预测（MCTP）模块，能够直接从文本 Token 与 LLM Hidden States 中生成音频响应，无需依赖 LLM 的全局语义建模，仅通过简单映射即可完成文本隐藏态到音频令牌的转换。在前两次前向中仅激活部分 MCTP 模块，保以维持文本与音频 Token 的合理配比（1:2），随后逐步激活部模块，通过动态调节文本／音频 Token 输出比例，实现生成速度与质量的最优平衡。

2025-05-15 15:32:36 1016

转载哈工大，西工大，武大，广西师大联合提出卷积神经网络在图像超分辨上的应用（174篇论文应用）

随后，根据线性和非线性的缩放图像方式给出了基于插值的卷积神经网络图像超分辨方法（双三次插值算法、最近邻插值法、双线性插值算法）、基于模块化的卷积神经网络超分辨方法（转置卷积、亚像素层和元上采样模块），分析这些方法在非盲图像超分辨和盲图像超分辨问题上的动机、原理、区别和性能最后，本文给出卷积神经网络在图像超分辨的未来研究、挑战和总结全文。因此，轻量级网络的图像超分辨研究非常有必要的。由于复杂的拍摄场景、运动的拍摄设备以及运动的目标，导致单源的图像引导深度网络获得图像超分辨模型在真实场景中的应用受限。

2025-05-14 21:06:23 49

转载 CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

具体而言，本方法首先引入主体定位模块（Subject Location Module，SLM）对图像进行精准定位，然后通过三个并行扩散过程中的自注意力注入与查询机制，在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。当前，主流的图像定制化方法主要沿着三个技术路线发展：基于反演优化（inversion-based）的方法、基于多模态编码器（multimodal encoder-based）的方法，以及新兴的基于注意力控制（attention control-based）的方法。

2025-05-13 12:31:11 22

转载字节跳动提出Mogao模型：开启 AIGC 从“能写会画”到“边写边画”

另外还使用了视频帧和相应字幕的数据，研究人员训练了一个视觉-语言模型，用以为视频中抽帧采样的每一帧生成对应的字幕说明，最终将图像帧和生成的字幕交织在一起，构成训练样本。Mogao通过创新的架构设计和高效的训练策略，成功实现了交错多模态生成，在多模态理解、文本到图像生成和零样本图像编辑等任务中展现了卓越性能。例如，它可以生成一段描述森林的文字，随后生成一张森林的插图，然后继续生成下一段文字，形成一个连贯的故事。的创新模型，它通过统一框架实现了交错多模态生成，为AI在创意和内容生成领域的应用开辟了新可能性。

2025-05-12 22:05:49 160

转载 T-Rex Label 上线 DINO-X 模型预标注，52CV 粉丝专属福利来袭

为了进一步拓展 AI 标注的能力边界，T-Rex Label 在已有 T-Rex2 智能标注的基础上，正式上线 DINO-X 预标注功能，这意味着用户只需选择图片、定义需要标注的类别，即可一键批量自动标注。（1）老粉福利：在文章发布之前已经关注“我爱计算机视觉”公众号的粉丝，在提供 T-Rex Label 用户 ID 后，将免费获得价值 50 元人民币的 T 豆（共计 1000 颗，使用预标注功能每张图片需消耗 3 颗 T 豆，即可标注约 330 张图片）。图3 DINO-X 的目标检测性能指标对比。

2025-05-09 18:10:44 39

转载 KuaiMod | 更高准确率、超低举报率的工业级自动化短视频质量判别框架

在 CoT2Tag 过程中，为了将推理过程结构化，我们为视频质量判别任务设计了专门的流程，具体来说，我们将视频质量判别分成内容提取，内容分析，中期检查，用户反馈分析和总结判断五个状态，由多模态大模型将视频内容以及 Tag2CoT 过程中生成的思维链整理成状态转移格式。这意味着，只有能够真正。1、判别标准的实时性：在诸多判别方法中，Perspective 是唯一的工业级内容判别 API，但由于其使用的模型训练时间较早，且无法微调，因此相较于其他可微调的方法以及更新的 GPT-4o，准确率较低。

2025-05-09 18:10:44 58

转载 ICML 2025 | 加州伯克利和 MIT 提出 Sparse VideoGen，挖掘模型稀疏性，加速视频生成

为此，研究者对这两个模块进行了算子优化，QK-Norm 的吞吐量在所有场景下均优于 PyTorch 的标准实现，平均加速比为 7.4 倍，。该方法通过将张量从帧为主的布局转换为 token 为主（token-major）的布局，使得 Temporal Head 所需的 token 在内存中呈现连续排列，从而优化了内存访问模式。然而，传统的张量布局通常是以帧为主（frame-major）的顺序存储数据，即同一帧的所有 token 连续存储，而不同帧的相同位置的 token 则分散开来。

2025-05-08 13:32:35 52

转载 TPAMI 2025 | 更快、更灵活的 Transformer图像复原网络

受到堆叠多层3 * 3卷积可获得更大感受野的启发，我们堆叠了几个小卷积核的DCN以获得更丰富的采样点。如表10所示，为了验证近似误差的影响，我们在Swin的窗口内对softmax-attention进行泰勒展开，我们发现，对softmax-attention进行更高阶的展开能取得更好的性能，这可能时因为更优的数值近似和attention map具有更高的秩。理论上，通过学习的全秩，可以提高T-MSA++的注意力图的秩，从而在大多数情况下实现更高的秩，并且T-MSA++表现出更丰富的特征表示。

2025-05-07 11:47:32 124

转载 Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型，长音频转录直出，性能优异！

Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49，在SPGISpeech上的WER为1.97，这一表现超过了多款商用ASR服务，如ElevenLabs/Scribe、REV.AI/Fusion等，同时也优于经典的OpenAI Whisper large v3模型。作为一款轻量级但功能强大的音频模型，Aero-1-Audio在参数效率和性能之间实现了出色的平衡。在处理长音频时，其他模型的性能都有明显下降，而Aero-1-Audio的性能下降最小，展示了其处理长音频的鲁棒性。

2025-05-02 20:20:23 79

转载 Video-XL-Pro：端侧3B模型长视频理解新sota！性能赶超7B巨头！

值得注意的是，VIdeo-XL-Pro只使用了相对较少的SFT数据（1M），低于Apollo的3.2M，远低于Qwen2.5-VL，InternVL2.5等知名开源模型，进一步说明了方法的有效性。Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分，在IoU>0.7时仍能达到15.58的准确率，远上超越一众知名开源模型，包括。最后在VNbench上，VIdeo-XL-Pro也取得有竞争力的结果，说明模型在增强长视频理解能力的同时，也能兼顾短视频能力。

2025-04-30 15:01:24 66

转载蚂蚁集团全球招募顶尖AI人才

⬇️点击阅读全文，一键投递简历。

2025-04-26 13:18:02 42

转载 CVPR25 | CV 微调卷出天际，Mona：我小，我强，我省资源

随着现代深度学习的发展，训练数据和模型规模的增加成为模型性能的重要增长点，但随之而来的是模型的垂直应用和微调成本和难度的提升。Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化在小于 5% 的参数成本下首次突破了全量微调的性能枷锁，为视觉微调提供了新的解决方案。Mona 方法通过引入多认知视觉滤波器和优化输入分布，仅调整 5% 的骨干网络参数，就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果，显著降低了适配和存储成本，为视觉模型的高效微调提供了新的思路。

2025-04-25 20:40:23 182

转载专刊征稿：面向机器人持续感知的具身多模态数据融合

投稿截止：October 20th, 2025。投稿开放：October 1st, 2025。面向机器人持续感知的具身多模态数据融合）欢迎大家关注、转发。》（CCF-C类期刊）上组织的。关注公众号，发现CV技术之美。同济大学MIAS Group。

2025-04-24 16:43:10 82

转载 TMI 2025 | 最新医疗图像分割模型：Zig-RiR，精准分割二维、三维医疗图像

在二维ISIC数据集和三维ACDC, Synapse数据集上，Zig-RiR都表现出极高的分割性能，表明它在提取目标的边界和区域时非常准确。Zig-RiR模型通过创新的嵌套结构和锯齿状扫描设计，成功实现了对二维、三维医疗图像的高效率且精准的分割，为该领域提供了先进的解决方案。，提出一种新颖的医疗图像分割模型 Zigzag RWKV-in-RWKV (Zig-RiR)，可用于精准分割二维、三维的医疗图像。Transformer的自注意力机制导致二次方级别的计算复杂度，限制了模型在高分辨率图像上的应用。

2025-04-24 16:43:10 469

转载 ICLR2025 | 打破次元壁！同济提出FaceShot，让表情包、玩具也能“开口说话”！

相比现有方法，FaceShot 在身份保持（ArcFace）、图像质量（HyperIQA）和动作还原（Point Tracking）等多个指标上均取得领先，尤其在结构不规则、风格差异大的角色（如玩偶、卡通形象、动物）上表现更为稳定。

2025-04-23 12:07:02 137

转载 UniToken：为统一多模态理解与生成打造信息完备的视觉表征

通过测试发现，第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强，故在本阶段进一步引入高质量多模态对话（423K）与精细化图像生成数据（100K），进一步增强模型对复杂指令的跟随能力。基于第一阶段对齐后的双边编码器所提供的完备视觉信息，本阶段在大规模图文理解与图像生成数据集上联合训练，通过控制数据配比（10M:10M）以均衡提升模型理解与生成任务的性能。ViT端到端微调：在模型的全训练流程中，动态微调连续视觉编码器的权重，结合精细的学习率控制策略以避免模型崩溃，进而适应广泛的任务场景。

2025-04-22 14:33:18 105

转载自回归的捍卫者来了：复旦联手字节Seed开源纯AR图像生成模型

最后是关于效率问题。带着好奇的心态，来自复旦视觉与学习实验室和字节Seed的研究者们希望“验一验”自回归视觉生成模型的能力，他们保持“Next-token prediction”这样简洁优美的形式，而通过优化训练和推理过程来探究自回归视觉生成是否可以像扩散模型一样取得不错的文生图效果。离散的token必然带来更多的信息损失：当下改进视觉tokenizer也是一个备受关注的方向，最新的方法无论是离散或连续都可以取得非常好的重建效果（至少不会制约生成模型），因此相信这一点不会是制约两条路线的核心原因；

2025-04-21 19:42:16 132

转载解锁 AI 开发新高度：AI 工作站与 NVIDIA AI Workbench 全栈解决方案

凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽，您可以处理大型 3D 和 AI 项目，在本地微调 AI 模型，探索大规模 VR 环境，并推动更大的多应用工作流。凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽，您可以处理大型 3D 和 AI 项目，在本地微调 AI 模型，探索大规模 VR 环境，并推动更大的多应用工作流。性能高达上一代的 3 倍，支持 FP4 精度，可缩短 AI 模型处理时间，同时减少显存占用，实现 LLM 和生成式 AI 的本地微调。

2025-04-18 13:27:55 78

转载斩获GitHub2.2k星！腾讯优图联合南京大学开源实时视频-语音交互大模型VITA-1.5

通过缓解模态之间的固有冲突，VITA-1.5 在视觉和语音理解方面实现了强大的能力，能够在不依赖于独立的 ASR 和 TTS 模块的情况下实现高效的 Speech-to-Speech 能力。包括 LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA，以及从LLaVA-OV 中采样的子集（如一般图像问答和数学推理数据），用于训练模型回答基于图像的问题，并执行视觉推理任务。在 VITA-1.5 的推理阶段，仅使用 Codec 的解码器。

2025-04-18 13:27:55 678

转载 “实习生也月入过万”，AI行业严重缺人？

全程实战源代码讲解，课程通俗易懂，所有算法均给出相应的实战案例及应用项目，内容覆盖200+案例，30+应用场景。但除了努力之外，我们更应该清楚的知道, 哪些技术需要重点掌握，学习时频繁踩坑，最终浪费大量时间，所以有一套实用的课程用来跟着学习是非常有必要的。我们将由浅入深的讲解视觉必备基础知识点、以及大厂面试必问的实战项目等全面细致的讲解，相信能给你带来启发和收获！拥有 1-3 年工作经验的，10K 是底线，25K 是常态，在 30 岁前年薪 50W+ 的也大有人在。确保你掌握的永远是当下最新最前沿的内容。

2025-04-16 12:31:18 1411

转载 IJCAI 2025 深度伪造检测、定位、可解释性研讨会暨挑战赛正式启动！

同时，研讨会还专设深度伪造检测与定位挑战赛，分设图片赛道和音视频赛道，旨在弥补现有检测算法在精准定位伪造区域与多模态音视频协同伪造识别方面的短板，提升AI时代内容安全水位。研讨会将汇聚全球顶尖学者，共同攻克多模态伪造、弱监督伪造定位、伪造可解释性、生成式AI对抗与防御等核心技术瓶颈，推动建立可验证、可追溯的生成式AI内容安全分析体系。蚂蚁数科联合新加坡科技研究局人工智能前沿研究中心，南洋理工大学，清华大学，中科院自动化所，合肥工业大学，安徽省数字安全重点实验室等多家机构。关注公众号，发现CV技术之美。

2025-04-16 12:31:18 352

转载画质理解新突破！北大字节提出Q-Insight，让大模型深度思考推理！

通过这种创新思路，Q-Insight在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平，具备出色的准确性和泛化推理能力，有望为图像画质增强、AI内容生成等多个领域提供强有力的技术支撑。Q-Insight首次将强化学习引入图像质量评估任务，创造性地运用了“群组相对策略优化”（GRPO）算法，不再依赖大量的文本监督标注，而是挖掘大模型自身的推理潜力，实现对图像质量的深度理解。评分型方法，这类方法通常只能提供单一的数值评分，缺乏明确的解释性，难以深入理解图像质量背后的原因；

2025-04-15 22:21:14 130

转载【重温经典】 MOE模型的早期探索—分层深度卷积网络HD-CNN

列（d）-（f）：前3个细分类模块得到的Top-5预测结果。这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师(https://i.cs.hku.hk/~yzyu/index.html)在UIUC的博士生严志程主导完成，首次在深度神经网络中成功实现了"分而治之"的层次化推理，并达到了当时十分优秀的性能，成为深度学习模型结构创新的经典案例。区分"苹果"和"公交车"易如反掌，因为二者在很多视觉属性上都有显著的差异，但辨别"苹果"与"橙子"则需要更精细的特征捕捉，因为二者的视觉特征较为接近。

2025-04-12 21:57:41 162

转载时空理解基准STI-Bench：评估MLLMs的精确时空理解能力

包含8大类挑战性任务，强制模型进行精确定量的估计和预测，例如：物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。通过对包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在内的顶尖MLLM进行广泛测试，发现它们在STI-Bench上的表现普遍不佳，尤其是在需要精确定量（如距离、运动参数）的任务上得分很低，显示其精确时空理解能力远未达到实际应用的要求。MLLMs真的具备精确时空理解能力吗？最新 AI 进展报道。

2025-04-11 16:34:14 59

转载 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门！附GitHub最全开源对比方法结果！

整理了180多个基于学习的方法。将一对红外图像和可见光图像进行融合，这一过程称为红外-可见光图像融合，是计算机视觉领域的一个基础性关键的任务，融合图像具有。这些旨在为红外与可见光图像融合领域的研究人员，工程师和爱好者提供一个核心库，促进红外-可见图像融合技术的进步和协作。我们不仅对大量的IVIF方法进行了分类，还对这些方法进行了极为全面的评价，包括配准、融合及其他后续下游操作等任务的。3）为了阐明面向应用的红外与可见光图像融合方法，我们用分层和结构化的方式系统地概述了技术层面和数据集的最新进展。

2025-04-10 22:38:23 133

转载【前沿解读】CVPR2025 | SAM赋能多模态图像融合：让每一滴语义信息都发挥价值

提出的双层优化驱动蒸馏机制结合创新的三元组损失函数，在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络，使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型，大幅降低了计算复杂度，同时保持了卓越的融合性能，极大提高了模型在实际场景中的应用价值。通过充分利用SAM对分割任务的固有适应性（如图右下角所示），我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能，更确保了实际推理阶段的高效可行性，为多模态图像融合领域提供了新的技术范式。

2025-04-09 16:12:34 387

转载 CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

我们在 PyTorch 中实现了 FoundationStereo 模型，使用混合数据集进行训练，包括我们提出的 FSD 数据集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公开数据集。训练时使用 22 次 GRU 迭代更新，而在后续实验中（除非特别说明），我们使用相同的基础模型进行零样本推理，采用 32 次精炼迭代和 416 的最大视差范围。现有方法依赖目标域微调，且受限于网络结构或数据规模。

2025-04-08 21:02:45 716

支持基本RichText编辑功能的消息应用程序附件

注意：这个资源是中兴捧月的一题，我保存下来自己看的，网上可以找到，大家就不要下载了吧请基于高通BREW SDK及模拟器开发包，为类似手机设备这样的小型终端，设计一个支持基本的RichText编辑功能的类似短消息的brew应用程序。初赛要求： 1、该应用第一阶段至少支持消息内容的编辑功能，消息的保存和阅读、删除功能。在编辑界面的任意位置可以实现字符,动画,图片,铃音的插入和删除功能。如下图： 2、界面一级菜单至少包含：新建消息，草稿箱，帮助 3、实现一个编辑功能BREW接口控件，至少支持以下要求：（1）编辑内容时能输入文本，并能设置文本的字体大小（大字体、小字体两种）（2）编辑内容时能能插入图片，图片格式为BMP文件，32x32像素，256色（3）编辑内容时能插入动画，动画格式为4幅（2）要求BMP的图片，当光标移动到动画位置时，能播放动画，当光标移开时，停止播放（4）编辑内容时能插入铃音，铃音格式为标准MIDI文件，大小32k以内，当光标移动到铃音位置时能够播放铃音，当光标移开时，停止播放 4、能将编辑的内容保存到一个草稿箱消息文件，该文件格式可以自己定义，但要保证文本、图片、声音的数据保存完整 5、支持草稿箱阅读保存的内容。所有输入内容能正常显示、播放 6、支持草稿箱删除消息功能实现技术提示信息： BREW SDK 模拟器可以在windows操作系统平台直接运行，可以结合visual studio 6.0 IDE 环境方便代码工程管理和代码调试。BREW应用开发语言为C语言。 BREW SDK已经提供了接口，支持了BMP图片显示及MIDI文件的播放。参考资料信息：可从https://brewx.qualcomm.com/brew/sdk/download.jsp，高通公司的官方网站下载安装。进入网站下载页面后，用自己的电子邮箱地址注册帐号，即可下载BREW SDK。 BREW SDK中已携带参考文档： 1）《BREWSDKUserDocs.chm》 2）《BREWAPIReference.chm》 3）《BREWSDKUserDocs.chm》 3GPP TS 23.040 V530文档（请见附件）： www.3GPP.org，也可在网上找到该文档的其他版本审核标准： 1、设计文档是否有效解决了题目问题，是否清晰反映了设计者的设计思路，文档结构组织是否合理 2、参赛程序对题目所要求功能的实现程度 3、参赛作品是否具有很好的可读性和运行效率，资源占用情况是否合适

2010-06-09

南京理工大学计算机学院复试上机编程题目

南京理工大学计算机学院复试上机编程题目，需要的可以看看。不过这是前几年的。

2010-05-28

南京理工大学数据库系统

南京理工大学数据库系统课件和部分练习题，考研的同学可以参考一下。

2010-05-28

南京理工大学数据结构

南京理工大学数据结构，考研的同学可以参考一下。

2010-05-28

南京理工软件工程讲稿

南京理工软件工程讲稿，考研的可以参考一下。

2010-05-28

南京理工大学操作系统课件

南京理工大学操作系统课件，考研的同学可以下载参考。

2010-05-28

南京理工大学计算机网络课件

南京理工大学计算机网络课件， computer networking，考研的同学可以参考。

2010-05-28

数学建模个人经验谈共九个部分

包括：组队和分工，选题，文献资料查找，论文写作，培训，实践，如何写好数学建模论文和一些个人心得。不是我写的。大家备战数模的可以参考一下。我在本科阶段没有参加过数学建模，因为有一种畏惧感，觉得那是数学学得很好的人才能做得来的。研究生阶段第一次抱着试一试的心态参加了第六届研究生数模，个人感觉没有想象中的那么难，而且所解决的问题很有挑战性也比较有价值，最终拿了个三等奖。研究生建模竞赛的好处是：自己组队，没有指导老师，不会有为了学校获奖老师给学生出方案的情况（可能也会有，不过是不被允许的），更客观。总的来讲，数学建模是体现一个人综合解决问题能力的一个平台，研究生数学建模竞赛更是有很多科研的成分，很有挑战性。

2010-05-19

2010成都信息工程学院研究生数模赛题

投票倾向问题 2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题

2010-05-19

weka使用教程中文版

目录 1. 简介2. 数据格式3.数据准备4. 关联规则（购物篮分析）5. 分类与回归6. 聚类分析

2010-05-19

经过裁剪预处理的面部表情识别研究用JAFFE数据库

网上JAFFE数据库几乎都是原始数据库，未经人脸裁剪/人脸剪切的，这个数据库是经过预处理的，已经将人脸利于面部表情识别的部分剪切出来，并存成64*82大小图像（详细裁剪算法请参考张一鸣，《面部表情识别》，该裁剪程序可在我的另一个资源里找到），按照类别分成7组，并详细标明各组所属表情分类，可直接用于面部表情识别实验。

2010-05-12

人脸面部表情识别日本jaffe数据库

人脸表情识别日本jaffe数据库,是表情识别领域应用最为广发的一个数据库之一，总共包含7种表情。

2010-05-12

人脸表情识别论文人脸预处理人脸检测裁剪特征提取模式分类

是篇硕士论文，详细介绍了人脸表情识别的预处理，特征提取，分类识别和系统设计各个阶段，是表情识别入门读物。

2010-05-12

人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切

该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪系统，因为大部分人脸表情数据库都是未经裁剪/裁切的，而去除背景是人脸表情识别预处理的重要一步。网上有很多人脸数据库，但大部分是未经裁剪/人脸裁切处理的，不能直接用于人脸表情识别试验。该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统，因为大部分人脸数据库都是未经裁剪的，而去除背景是人脸表情识别预处理的重要一步。图像归一化为64*82大小，归一化方案请参见张一鸣，《人脸表情识别》。采用OpenCV+MFC制作，不提供源代码。用到的同学可以下载。敬告：因为本程序读取.tif格式图像使用OpenCV函数，而.tif格式本身的复杂性导致没有通用的读取函数，故对有些.tif图像可能会出问题。

2010-05-12

人脸识别预处理人脸裁剪系统Face Cropping人脸裁切

网上有很多人脸数据库，但大部分是未经裁剪处理的，不能直接用于人脸识别试验。而整个网络也几乎找不到人脸裁剪/人脸裁切的工具，广大初入人脸识别研究领域的人不知如何入手。该程序是为人脸识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统，因为大部分人脸数据库都是未经裁剪/裁切的，而去除背景是人脸识别预处理的重要一步。采用OpenCV+MFC制作，不提供源代码。用到的同学可以下载。敬告：因为本程序读取.tif格式图像使用OpenCV函数，而.tif格式本身的复杂性导致没有通用的读取函数，故对有些特殊格式的.tif图像可能会出问题。

2010-05-12

kMeansCluster k均值聚类算法Matlab代码实现

kMeansCluster k均值聚类算法Matlab代码实现，聚类里的经典算法。可以参考应用。

2010-05-09

实对称矩阵相似对角化Matlab程序

实对称矩阵相似对角化Matlab程序，用到的朋友可以下载看看。

2010-05-07

人脸识别研究用ORL数据库

人脸识别 ORL数据库图像和.mat数据不需裁剪和预处理可直接用于实验。

2010-05-06

经过裁剪预处理的人脸识别研究用FERET数据库

经过裁剪预处理的人脸识别研究用FERET数据库（美国军方数据库），共有200个人，每个人7幅图像，包括图像和.mat数据，可以直接用于人脸识别实验。

2010-05-06

经过裁剪预处理的人脸识别研究用AR数据库

经过裁剪预处理，共有120个人，每人14幅图像，包含图像和.mat数据，可直接用于人脸识别实验。

2010-05-06

人脸识别现有应用介绍

人脸识别现有应用介绍人脸识别汉王飞瑞斯中控

2011-01-17

采用LBP金字塔的人脸描述与识别

采用LBP金字塔的人脸描述与识别脸识别多尺度分析 LBP金字塔直方图

2010-09-25

handwriten digit recognition by combined classifiers

UCI多特征数据库的原始文献，handwriten digit recognition by combined classifiers

2010-09-25

Automatic visual/IR image registration

A feature-based approach to visual/IR sensor image registra- tion is presented.This new method overcomes the difficulties caused by the discrepancy in data’s gray-scale characteristics and the problem of feature inconsistency.It employs a wavelet-based feature extractor to locate point features from contours based on local statistics of the image intensity.Matching is carried out at multiresolution levels based on point features.A consistency-checking step is involved to eliminate mis- matches.The algorithm is accurate,robust,and fast.It is capable of handling images with considerable translation,scaling,and rotation.De- tails on the registration algorithm including feature extraction,matching, consistency checking,and the image transformation model are dis- cussed.Experimental results using real visual/IR sensor data are presented.

2010-09-25

Statistical Pattern Recognition:A Review

The primary goal of pattern recognition is supervised or unsupervised classification.Among the various frameworks in which pattern recognition has been traditionally formulated,the statistical approach has been most intensively studied and used in practice.More recently,neural network techniques and methods imported from statistical learning theory have been receiving increasing attention.The design of a recognition system requires careful attention to the following issues:definition of pattern classes, sensing environment,pattern representation,feature extraction and selection,cluster analysis,classifier design and learning,selection of training and test samples,and performance evaluation.In spite of almost 50 years of research and development in this field,the general problem of recognizing complex patterns with arbitrary orientation,location,and scale remains unsolved.New and emerging applications,such as data mining,web searching,retrieval of multimedia data,face recognition,and cursive handwriting recognition, require robust and efficient pattern recognition techniques.The objective of this review paper is to summarize and compare some of the well-known methods used in various stages of a pattern recognition system and identify research topics and applications which are at the forefront of this exciting and challenging field.

2010-09-25

LBP相关文献及Matlab程序

LBP相关文献及Matlab程序LBP文献 Matlab程序

2010-09-25

LBP人脸识别Yale数据库

LBP人脸识别Yale数据库，LBP 人脸识别 Yale数据库 matlab数据和程序不是我写的。

2010-09-25

结合Zernike矩的多尺度模板形状匹配

结合Zernike矩的多尺度模板形状匹配，目标识别形状匹配小波变换 Zernike矩。

2010-09-25

Zernike矩的快速算法

Zernike矩的快速算法，论文，可以参考下。

2010-09-25

联机手写数字识别程序

联机手写数字识别程序，不是我写的，分享一下。

2010-09-25

2010年第七届全国研究生数学建模竞赛试题与附件

2010年第七届全国研究生数学建模竞赛试题与附件包括ABCD四题

2010-09-17

文件批量命名工具FileBatchRemaerExe

文件批量命名工具 FileBatchRemaerExe

2010-07-31

OpenCV1.2安装文件

OpenCV1.2安装文件，计算机视觉开源函数库。

2010-07-31

rgb2hsi转换函数Matlab

图像从RGB空间转换到HSI空间，Matlab函数

2010-07-31

流形学习问题manifold study

线性维数约简方法流形和维数约简. 流形学习的一些数学基础. 几种流形学习算法简介：LLE, Isomap, Laplacian Eigenmap. 流形学习问题的简单探讨.

2010-06-29

贝叶斯决策理论机器学习数据挖掘

贝叶斯分类器正态分布决策理论关于分类的错误率分析最小风险Bayes分类器 Bayes分类器算法和例题聂曼－皮尔逊判别准则最大最小判别准则决策树序贯分类

2010-06-29

OpenCV1.0安装文件

在VC6下配置OpenCV1.0文档。 http://www.opencv.org.cn/index.php/VC6%E4%B8%8B%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AEOpenCV1.0

2010-06-25

表达式求值C++代码

表达式求值C++代码，我测试过，挺好用。遇到类似问题，可以参考一下。

2010-06-13

“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件（请不要下载）

在通信领域，用户在网管界面操作，通过TCP/IP协议给电信设备发送报文，从而配置、维护电信设备。电信设备一般都不具备可视化终端，当电信设备从网管接收到了命令报文后，用户不方便了解电信设备接收到了哪些命令报文、以及处理报文过程是否正常。为了监视电信设备的运行情况，可以在电信设备上运行一个socket服务器，在PC机上运行一个socket客户端，称为命令报文监视器，所有通过网管发给电信设备的命令报文都会通过socket服务器发送给报文监视器，请实现一个这样的命令报文监视器。初赛要求： 1、监视器程序是一个可视化的GUI程序，刚运行时提供输入框让用户输入需要监视的电信设备的IP地址和端口号，然后与电信设备服务器建立socket连接。比如用户输入的IP地址为：192.192.192.1，端口号为8000，用户点击“连接”按钮即可与电信设备服务器建立连接。 2、监视器程序仅仅从socket连接中读取电信设备服务器发来的数据，这些数据是一串连续的ASCII码流。监视程序每次从socket中接收到数据后在数据前面加上时间信息，然后在GUI界面中显示。比如从服务器接收到的报文为“Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12.”，那么在GUI界面中的显示则如下： [10/05/19 03:30:17] Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12. 其中[]里面的是显示接收到的PC机本地时间，其余ASCII字符为报文的内容。监视器程序只管从socket中接收报文，无须通过socket发送报文。 3、当报文内容很多时为了方便用户选择查看有意义的报文，可以对报文进行过滤。支持用户输入需要过滤的字符的关键字。比如输入要过滤的关键字为“nMcuAdrs=0x10301”，那么对于nMcuAdrs=0x10301的报文则不显示，仅显示满足关键字过滤规则的报文。当需要有多个要过滤的关键字时，需要支持一下的规则：（1）与 key1 and key2, 表示既要满足关键字key1也要满足关键字key2 （2）或 key1 or key2, 表示只要满足key1或者kye2任一即可（3）支持与和或的组合，与的优先级高于或。比如 key1 and key2 or key3，表示只要满足key1、key2，或者key3即可（4）括号的优先级高于and。比如 key1 and （key2 or key3），表示满足key1并且满足key2、key3中任一即可。每一个关键字都用双引号括起来，比如输入过滤的字符为“nMcuAdrs=0x10301” and “CmdCode = 0x11ab” ，表示既要满足nMcuAdrs=0x10301也要满足CmdCode = 0x11ab 4、支持监视器收到的所有报文保存到文件中，需要支持用户设置文件所能保存的最大报文数目。比如用户设置最大可以保存100条报文，当超过100报文时新接收到的报文可以覆盖时间最长的报文，例如附件中的文件。实现技术提示信息： 1、编程语言可以任选 2、借用BT原理，当1个监视器程序成功连接上电信设备后即成为种子，让其他的监视器程序连接审核或评分标准： 1、设计合理、简洁，简单、易用 2、设计文档、说明文档清晰 3、软件功能正常、运行高效，无严重BUG

2010-06-12

“中兴捧月”软件测试自动化附件

软件测试自动化是提升软件测试效率的一个好途径，自动化的实现首先要能够对被测对象进行自动化控制，形成自动化控制工具，完成一些自动化控制功能；一个完整的测试系统可能包括多种自动化控制对象，需要有针对性的构建不同自动化控制工具，同时也需要提供一个集成的平台，使测试人员可以在一个统一的视图上进行自动化测试用例的开发，来实现对不同自动化控制工具的操纵，综合完成一个完整测试用例的执行。这个平台与各自动化控制工具之间形成主从的关系，用例流程中对被测对象的控制功能可以关键字的形式在平台上调用，平台通过指令下发给自动化控制工具进行实际执行并返回结果。在一款C/S形式的任务调度软件的测试过程中引入自动化测试，其中客户端界面上有五个可以输入参数的编辑框（假设均为整数型数据），在设置好一组参数组合后，点击开始处理按钮，客户端会将这些输入参数进行打包并向服务器端提交，服务器端接受申请后进行运算并形成要调度的任务，如果不能完成操作则返回失败信息给客户端，如果能完成操作则在服务器端可以查看到进入任务调度列表的对应任务项（以特定任务ID表示）并返回成功信息给客户端，客户端在接收到返回信息后会根据操作的成功与否显示相应的成功图标或失败图标（成功图标与失败图标是不同控件）。现在要实现对软件输入参数的遍历性测试，一个典型的参数遍历测试步骤如下：（1）对客户端界面的五个参数按照某种组合进行设置（组合数据是在用例设计时已经设计好的一组数据，并对应得出一个应该在服务器端进入任务调度列表的任务ID）（2）点击客户端开始处理按钮（3）判断处理结果，如果显示图标为失败则本次用例失败（4）如果处理结果为成功（显示图标为成功图标），则对服务器端的任务调度列表进行特定任务ID获取并判断，如符合前面参数组合所预期的任务ID则用例成功，否则失败（5）返回到步骤1，按照另一参数组合进行设置，重复1-4步骤，直到组合数据都遍历完（假设已经设计好10组数据组合）（6）最终给出完整测试结果假设已经实现对客户端界面参数读写与控件控制的自动化工具，以及服务器端任务列表内容判断的自动化工具，现在需要设计一个有集成功能的自动化测试平台系统，这个平台能够对控制工具进行指令下发及结果返回，操纵工具实现对测试对象的控制，如前述1-4步骤要完成的功能。所需要的自动化测试平台有如下三个重点要求：（1）能够让用户定制出如上述的测试用例流程，测试用例的实现可以脚本或图形界面形式进行支持，但以最大程度降低用户编写用例的难度为目标（2）以友好界面提供给测试人员进行上述测试用例的实现，以及用例运行和运行结果的显示（3）遍历测试下多种数据组合以合适的方式进行支持，体现数据驱动特点附：软件测试自动化测试数据（见附件）初赛要求： 1、设计自动化测试平台系统框架结构及系统功能，不局限于上述三项要求 2、重点设计上述平台系统三大特性需求所要求的软件功能 3、实现上述设计的DEMO程序实现技术提示信息：编程语言可以任选软件测试自动化相关背景资料可参考：《软件测试自动化技术与实例详解》Addison-Wesley 电子工业出版社《软件测试自动化》Daniel J.Mosley 机械工业出版社审核或评分标准 1、设计合理，有一定应用优势 2、设计文档、说明文档质量 3、软件基本功能实现，无严重BUG

2010-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人