温柔哥`-CSDN博客

原创看、听、记与推理：具备长期记忆的多模态智能体

这篇论文的创新是提出 M3-Agent，把视频/音频流转成“实体中心”的情节记忆+语义记忆，并用RL训练的多轮检索-推理控制器在记忆上迭代推理（模型生成问题去查询，优于单轮RAG），并以 M3-Bench 长视频跨模态基准验证其有效性。

2025-09-05 16:11:34 875

原创 AgentThink：一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架

这篇论文的创新点是首次将动态的工具调用与链式推理统一到自动驾驶视觉语言模型中，通过结构化数据（构建微调数据）、两阶段训练（SFT+GRPO）和专门的工具使用评估显著提升了推理一致性、可解释性和决策准确性。

2025-09-04 15:45:46 887

原创 AAAI26出版社面向使用 LaTeX 的作者的匿名提交说明

AAAI 2026论文提交与格式指南摘要本文档详细说明了AAAI 2026会议的论文提交要求，包含匿名提交和终稿准备两部分。

2025-07-22 10:10:23 3293

原创 Pixel Reasoner：通过好奇心驱动的强化学习激励像素空间推理

Pixel-Reasoner通过在Vision–Language模型中引入像素级操作（如ZOOM-IN和SELECT-FRAME），在推理链中实现“看–思–再看”的闭环，并采用模板化示例与错误自纠正轨迹进行warm-start指令微调，随后通过好奇心驱动的强化学习平衡像素空间和文本空间推理，有效克服了模型对新操作的学习陷阱。基于此策略，7B参数的Pixel-Reasoner在V*Bench、TallyQA-Complex和InfographicVQA等多项视觉推理基准上刷新了开源模型最佳成绩。

2025-07-15 10:37:40 1084

原创 VLM-R³：面向增强多模态链式思维的区域识别、推理与精化

VLM-R³ 提出了一种结合 Visuo-Lingual Interleaved Rationale (VLIR) 数据集和 Region-Conditioned Reinforcement Policy Optimization (R-GRPO) 策略的多模态推理框架，使模型能够在生成链式推理过程中动态识别、裁剪并整合关键视觉区域，与文本思考交互融合；实验证明，该方法在 MathVista、ScienceQA 等多项基准上均大幅超越了现有开源及闭源模型，尤其在细粒度空间推理场景下表现很好。

2025-07-15 10:13:42 528

原创 Vad-R1：通过从感知到认知的思维链进行视频异常推理

针对传统视频异常检测仅能判断“有无”而缺乏因果推理的局限，提出视频异常推理（VAR）任务，并构建端到端框架 Vad-R1。框架引入感知-认知四阶段 Chain-of-Thought，引导模型由全局场景逐步聚焦至异常本质；同时发布 8 k+ 视频组成的 Vad-Reasoning 数据集，其中 1.8 k 样本含高质量推理链用于监督微调，其余 6 k+ 样本仅具弱标签。为利用弱标注强化推理可靠性，设计 Anomaly Verification Augmented-GRPO 算法，通过“剪视频-复判”自验证奖励

2025-05-30 14:40:19 1462

原创 T2I-R1：通过语义级与图像 token 级协同链式思维强化图像生成

2025-05-10 14:24:08 1205

原创 Visual-RFT：视觉强化微调

这篇论文提出了一种全新的多模态模型微调范式，名为视觉强化微调（Visual-RFT）。它将语言模型中已有的强化微调（RFT）方法，首次拓展到了视觉任务上。论文的核心思想是：通过设计可验证的奖励函数（如分类是否正确、检测框与真实框的IoU和置信度等），用强化学习算法（特别是GRPO）来优化大型视觉语言模型（LVLMs），从而在少样本甚至极少样本场景下，实现对图像分类、物体检测、推理定位、开放词汇检测等任务的显著提升。与传统的监督微调（SFT）相比，Visual-RFT不仅更数据高效，而且更能促使模型“理解”任

2025-04-02 16:43:51 1084

原创 Seg-Zero：通过认知强化实现的推理链引导分割

这篇论文提出了Seg-Zero，一个基于强化学习的框架，用于解决指代表达分割（Referring Expression Segmentation）任务。与传统的基于监督学习的分割方法不同，Seg-Zero通过解耦推理模型和分割模型，采用强化学习激活模型的推理能力，能够在没有显式推理数据的情况下生成推理链并执行像素级分割。实验表明，Seg-Zero在零-shot任务中表现优异，尤其在跨域数据上的泛化能力优于现有方法。

2025-04-01 20:51:31 1030

原创 HyperAD：学习弱监督音视频暴力检测在双曲空间中的方法

该研究提出了一种基于双曲几何的HyperVD框架，用于弱监督音视频暴力检测。通过在双曲空间中学习片段表示，HyperVD有效提高了暴力与非暴力实例的区分性，实验结果在XD-Violence数据集上超越了现有方法。

2025-03-19 11:40:53 1074

原创双曲空间学习记录

关于双曲空间的一些学习记录，近期应该还会持续更新。。。

2025-03-18 17:55:39 567

原创视频异常检测

对视频异常检测领域的一些论文的性能的整理

2025-03-11 20:43:11 509

原创 AnyAnomaly: 基于大型视觉语言模型的零样本可定制视频异常检测

这篇论文提出了一种新型的视频异常检测方法，称为AnyAnomaly。该方法通过零-shot的方式，利用大规模视觉语言模型（LVLM）和上下文感知的视觉问答（VQA）技术，解决了传统视频异常检测方法在多种环境下泛化能力不足的问题。AnyAnomaly不需要额外的训练数据，用户可以通过自定义异常事件的文本描述来检测视频中的异常，适用于各种不同的视频环境。实验表明，AnyAnomaly在多个标准数据集上的表现超越了传统的异常检测方法，尤其在跨领域泛化能力上表现突出。

2025-03-11 20:01:38 1688 2

原创 ACM MM 2025 Overleaf 模板指导

本文介绍了 ACM 文章的排版模板 “acmart” 的使用方法，涵盖了文档结构、格式化规则、数学公式、图像、表格、引用格式以及多语言支持等内容。文章详细说明了如何正确使用 $\LaTeX$ 进行章节划分、插入图表、编写数学公式，并遵循 ACM 期刊和会议论文的格式要求。此外，还包括了 SIGCHI 扩展摘要的特殊格式、附录的使用、致谢部分的编写，以及参考文献的管理方式。本文提供了具体的代码示例和最佳实践，以帮助作者高效地编写符合 ACM 规范的论文。

2025-03-08 11:56:47 11550 14

原创 AnomalyRuler：遵循规则-利用大语言模型进行视频异常检测的推理

这篇论文提出了AnomalyRuler，一个基于推理框架的视频异常检测（VAD）方法，旨在提升检测结果的可解释性和公众信任。AnomalyRuler通过两个阶段进行推理：归纳阶段，通过少量正常样本生成检测规则，推导出正常行为与异常行为的区分；演绎阶段，使用这些规则对测试视频进行异常检测，并结合平滑和投票机制优化检测结果。该方法不需要大量异常样本，能够快速适应不同的VAD场景，并在多个标准数据集上表现出优越的性能和推理能力，超越了传统的VAD方法。

2025-02-14 20:09:46 1904

原创 VERA: 基于视觉-语言模型的解释性视频异常检测框架

VERA 是一种无需修改模型参数的可解释视频异常检测 (VAD) 方法。通过语言化学习，VERA 在训练阶段优化指导性问题，以增强冻结的视觉-语言模型 (VLM) 的推理能力。在推理阶段，VERA 结合场景和时间上下文，通过粗到细的方法优化异常评分，实现帧级检测。实验表明，VERA 在 UCF-Crime 和 XD-Violence 数据集上取得了先进性能，并且相比现有方法，无需指令微调或额外推理模块，大幅降低计算和标注成本。

2025-02-07 17:06:20 1517

原创 MCANet: 基于多模态字幕感知的大语言模型训练无关视频异常检测

就是仿照CVPR'24那篇LAVAD来做的，几乎一摸一样，就引入了一个音频字幕

2025-01-10 21:42:07 1659 2

原创 CUVA：对视频异常因果理解的综合基准（A Comprehensive Benchmark for Causation Understanding of Video Anomaly）

这篇论文主要是发布了一个关于因果理解的数据集，考虑的很全面，包括是什么、为什么、多么重要。

2024-09-26 12:59:21 1394 4

原创安装conda并添加到环境变量中

安装conda，并且手动将其添加到环境变量中！

2024-08-25 15:29:51 3398

原创大模型是如何训练出来的？

①预训练，此时只是单纯的利用网络上爬取的资料学习词语接龙，可以作为后面阶段的不错的初始参数；②微调，此时使用预训练好的模型参数作为初始参数，并且冻结这些参数，添加一些新的参数并且只训练这些新参数，而且要使用QA的形式，即指令形式，这样微调出来的模型才可以很好的回答人类所提出的问题；③强化学习，通过反馈来改进自己的答案，好的答案概率提高，不好的答案概率降低。

2024-08-23 19:54:40 1062

原创利用gradio为InternVL构建UI界面

我这边自己写了两个UI，一个是纯文本的，一个是支持多图片的，不过都是单论对话，没有历史对话信息。

2024-08-23 17:26:58 615

原创在不训练模型的情况下强化语言模型

在不训练模型的情况下，如何增强语言模型的能力

2024-08-23 15:43:25 440

原创 VadCLIP：将视觉语言模型应用于弱监督视频异常检测（VadCLIP: Adapting Vision-Language Models for WSVAD）

作者主要是提出了WSVAD的`新范式VadCLIP`，是`双分支`结构，第一个分支利用视觉信息实现二分类，为粗粒度；第二个分支利用视觉语言对齐方法实现多分类，为细粒度。VadCLIP主要包括`3个组件`，分别为：①LGT-Adapter捕获时间依赖；②Two prompt mechanisms有效地将CLIP用到WSVAD任务；③MIL-Align实现了弱监督下对齐范式的优化，尽量保留了预训练的知识。

2024-08-16 17:03:30 1733

原创 VAD-LLaMA：基于大语言模型的视频异常检测和解释（Video Anomaly Detection and Explanation via Large Language Models）

作者主要是提出了一个新颖的VAD方法，即VAD-LLaMA，将VLLMs加进了VAD框架，使得模型不仅可以检测异常，还可以解释异常，当然了，检测异常的时候还不用手动选择阈值。创新点主要是：①在MIL基线即VADor上引入了一个LTC来建模长期上下文（还有一个扩展，引入短期历史信息）；②提出了三阶段训练方法，使得在训练VLLMs到VAD领域时效率更高，即减少数据需求和降低标注成本。

2024-08-13 17:50:53 2533 3

原创 Hugging Face 使用镜像下载模型/数据集

使用 huggingface-cli 快速下载大模型

2024-08-09 11:14:36 3009

原创 OVVAD：开放词汇视频异常检测（Open-Vocabulary Video Anomaly Detection）

这篇研究的是弱监督下的开放词汇视频异常检测任务，方法划分为2个任务，一个是只管检测异常，一个只管给异常分类。他认为重要的有：①是几乎没权重的TA模块；②可以给视觉信号注入语义知识的SKI模块；③可以生成伪异常样本的NAS模块。

2024-08-07 15:21:38 1053 4

原创 HAWK：学习理解开放世界视频异常（HAWK: Learning to Understand Open-World Video Anomalies）

主要是对现有的数据集进行了改造（生成语言描述+QA对），然后是提出了结合运动模态的新方法HAWK，它生成的语言描述更关注于对异常的理解，并且更倾向于泛化到开放世界场景。

2024-07-30 22:46:31 735

原创 Holmes-VAD：基于多模态大语言模型的无偏且可解释的视频异常检测（ Towards Unbiased and Explainable Video Anomaly Detection）

首先提出了Holmes-VAD方法来解决了目前VAD方法中存在偏差和缺乏解释性的问题，然后构建了VAD-Instruct50k数据集来验证了Holmes-VAD方法的有效性，在构建数据集时引入了高效的标注范式（单帧注释、事件片段生成、时间片段描述）

2024-07-27 21:49:59 2861 4

原创 VANE-Bench：用于对话式大语言模型的视频异常检测评估基准（Video Anomaly Evaluation Benchmark for Conversational LMMs）

本文主要提出了VANE-Bench数据集，它旨在评估Video-LMMs在VAD任务中的表现

2024-07-25 00:33:18 1422

原创 Windows系统连接Linux服务器时配置免密登录

想要VSCode连接服务器时不需要每次打开都得重复输入密码的话，就先把Windows系统连接服务器时的免密登录配置好，VSCode也就不需要了

2024-07-24 15:13:01 2002

原创基于弱监督学习的视频异常检测与鲁棒时序特征幅度学习（Robust Temporal Feature Magnitude Learning）

提出了RTMF方法，显著提高了对微小异常的辨别能力和样本的使用效率。

2024-07-23 21:08:49 1411 1

原创不仅看，还要听：弱监督下的多模态暴力检测学习（Learning Multimodal Violence Detection under Weak Supervision）

本文主要研究弱监督下的基于视听两种模态下的大规模暴力检测，大规模是指提出了大规模暴力数据集XD-Violence，并且本文提出的方法可以用在离线检测和实时检测两种方面。

2024-07-15 10:30:47 2217 6

原创图神经网络（GNN/GCN）

主要是通过聚合、更新、循环三大步骤来进行的。

2024-07-13 16:08:49 1297

原创在监控视频中的现实世界异常检测（Real-world Anomaly Detection in Surveillance Videos）

使用弱标记的正常和异常视频数据来训练一个深度MIL框架，是一个视频异常检测的通用模型，并且在新提出的数据集上验证其有效性。并展示了提出的数据集在异常识别任务种的实用性（benchmark）

2024-07-12 14:46:59 1075

原创猫狗大战（Cats Vs Dogs）Pytorch版

跑起来猫狗大战代码的详细步骤（包含代码和数据集）

2024-07-07 16:20:37 1582

原创利用大型语言模型进行视频异常检测（Harnessing Large Language Models for Training-free Video Anomaly Detection）

提出LAVAD方法，利用预训练好的LLMs和VLMs来完成视频异常检测，不需要数据收集和模型训练。

2024-07-05 20:49:36 2370 6

原创算法-选择排序

如下数组 A 中，变量 i （从 1 ~ n-1），初始令变量 min = i，，变量 j 从 i+1 ~ n 依次遍历元素，若 A[min] > A[j]，则更新 min = j，当变量 j 遍历到 n 后，判断 i 是否还与 min 相等，若相等则说明当前最小值就是 i 所指向的元素，若不相等，则需要交换 i 与 min 所指向的元素，这样就确定了一个最小值元素，进行下一次上述流程，总过需要 n-1 趟便可以将数组 A 排序为从小到大。每一趟在待排序元素中选取关键字最小的元素加入有序子序列。

2024-03-07 10:50:39 432

原创 C语言-一维数组的定义

数组通过变量名后加方括号表示，方括号里面是数组可以容纳的成员数量（即长度）。//数组 arr ，里面包含 10 个成员，每个成员都是 int 类型// 或者10声明数组时，必须给出数组的大小。数组可以在声明时，使用大括号，同时对每一个成员赋值。变形形式 1：C 语言允许省略方括号里面的数组成员数量，这时根据大括号里面的值的数量，自动确定数组的长度。// 自动确定数量为 5 ，与上面的定义方式完全相同变形形式2：对数组部分元素赋初值：如果大括号里面的值，少于数组的成员数量，那么。

2024-03-03 16:52:12 2224

原创 C语言-对数组的理解

数组提供了一种连续的内存空间来存储相同类型的数据，这样可以提高内存的使用效率，并且方便进行数据的访问和修改。模拟现实世界：在很多实际情况中，一组相关的数据可以看作是一个整体，例如一周的每天温度、一个月的销售额等。：数组是一种高效的数据结构，可以快速地访问、修改和遍历其中的数据。：通过数组，可以将复杂的数据结构和运算简化为简单的数组操作和访问，从而简化代码，提高代码的可读性和可维护性。故数组元素在内存中依次紧密有序排列，占据的空间的大小，取决于数组的长度和数组中元素的类型。中引用的是这块连续空间的。

2024-03-03 16:22:32 660

原创 C语言-break、continue和goto关键字

如果我们没有找到这样的因子，那么 n 就是素数，因为任何大于 sqrt(n) 的数都不可能是 n 的因子（否则，就会有一个小于 sqrt(n) 的对应因子）。如下面这段示例代码中，当 i=1 时就满足了 if 判断条件，则会执行 break 语句，这时 for 循环就结束了，相当于说 break 下面的语句一次也不会执行到！在嵌套循环中，break 结束的是包裹 break 关键字的最近的一层循环！因此，我们只需要检查到 sqrt(n) 就足够了，这可以大大减少我们需要检查的数的数量，从而提高算法的效率。

2024-02-29 15:34:52 1097

VAD-LLaMA 基于大语言模型的视频异常检测和解释

2024-08-13

开放词汇视频异常检测（Open-Vocabulary Video Anomaly Detection）

2024-08-07

利用大型语言模型进行视频异常检测

提出LAVAD方法，利用预训练好的LLMs和VLMs来完成视频异常检测，不需要数据收集和模型训练。

2024-08-05

HAWK：学习理解开放世界视频异常

2024-07-30

Holmes-VAD - 基于多模态大语言模型的无偏且可解释的视频异常检测

2024-07-27

用于对话式大语言模型的视频异常检测评估基准

提出了VANE-Bench数据集，旨在评估Video-LMMs在VAD任务中的性能

2024-07-25

基于弱监督学习的视频异常检测与鲁棒时序特征幅度学习（RTFM）

提出了RTFM方法，显著提高了原有MIL方法的样本效率和对微妙异常的区分能力。

2024-07-23

猫狗大战（Cats Vs Dogs）Pytorch版

这里面包含代码和完整的数据集

2024-07-06

Learning Multimodal Violence Detection under Weak Supervision

不仅看，还要听：弱监督下的多模态暴力检测学习

2024-07-15

Real-world Anomaly Detection in Surveillance Videos

在监控视频中的现实世界异常检测

2024-07-15

MQ-常见消息模型及基本消息队列（basicQueue）

用于完成 RabbitMQ 的 HelloWorld 案例

2024-02-01

MQ-RabbitMQ介绍和安装

rabbitmq3-management 为镜像名称

2024-01-31

Docker-利用DockerCompose部署cloud-demo微服务集群

cloud-demo微服务，里面有几个微服务的 jar 包和对应的 Dockerfile文件，还有 docker-compose.yml 文件

2024-01-29

Docker-认识和安装DockerCompose

DockerCompose的安装包

2024-01-28

Docker-使用Dockerfile自定义镜像

基于Ubuntu镜像构建一个新镜像，运行一个java项目的资料

2024-01-27

mysql-5.7.25

博客“Docker-将宿主机目录直接挂载到容器”的资料

2024-01-26

nacos-server-1.4.1

Nacos的Windows安装包

2024-01-17

看、听、记与推理：具备长期记忆的多模态智能体

2025-09-05

AgentThink：一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架

2025-09-04

AAAI26出版社面向使用 LaTeX 的作者的匿名提交说明

文件是aaai26的官方给的工具包，包括latex、word的写作模板

2025-07-22

Pixel Reasoner：通过好奇心驱动的强化学习激励像素空间推理

2025-07-15

VLM-R³：面向增强多模态链式思维的区域识别、推理与精化

ChatGPT 说： VLM-R³ 提出了一种结合 Visuo-Lingual Interleaved Rationale (VLIR) 数据集和 Region-Conditioned Reinforcement Policy Optimization (R-GRPO) 策略的多模态推理框架，使模型能够在生成链式推理过程中动态识别、裁剪并整合关键视觉区域，与文本思考交互融合；实验证明，该方法在 MathVista、ScienceQA 等多项基准上均大幅超越了现有开源及闭源模型，尤其在细粒度空间推理场景下表现尤为突出。

2025-07-15

Vad-R1：通过从感知到认知的思维链进行视频异常推理

本文聚焦传统视频异常检测仅“判有无”而缺乏深层解释的问题，首次提出**视频异常推理（VAR）**任务，并构建端到端框架 Vad-R1。我们设计“感知-认知”四步推理链 P2C-CoT，使模型先全局观察再逐级推理；制作含 8 k+ 视频的 Vad-Reasoning 数据集，其中 1.8 k 条配有高质量推理链用于监督微调，其余 6 k+ 条仅有弱标签。为在弱标下提升推理可靠性，提出 AVA-GRPO 强化学习算法，利用“剪视频-再判断”自验证奖励抑制模型只看少帧即下结论的倾向。两阶段训练后，Vad-R1 在自建测试集取得 87.5 % 准确率、mIoU 0.713，并在 VANE 基准显著超越多种开源/专有多模态大模型；随机或非结构化推理均难带来同等提升。结果表明结构化推理链与自验证强化机制是提升异常深度理解的关键，为可解释视频安全分析提供了新范式。

2025-05-30

T2I-R1：通过语义级与图像 token 级协同链式思维强化图像生成

T2I-R1 将“语义级 Chain-of-Thought（先想清全局场景）”和“图像 token 级 Chain-of-Thought（逐 patch 细化像素）”首次合并到同一次文本-生成-图像流程中，并用强化学习框架 BiCoT-GRPO 联合优化二者：模型先用语义 CoT 规划，再用 token CoT 落实细节；多重视觉专家评分（人类偏好、检测器、VQA 等）作为组相对奖励。以 7 B 基座 Janus-Pro 训练后，T2I-R1 在 T2I-CompBench 提升 13%，在 WISE 提升 19%，整体超越扩散系 SOTA FLUX.1，说明双层 CoT 协同能显著增强复杂提示的理解与图像质量。

2025-05-10

TA关注的人