沉迷单车的追风少年

夫川竭而谷虚，丘夷而渊实。圣人已死，则大盗不起，天下平而无故矣。圣人不死，大盗不止。虽重圣人而治天下，则是重利盗跖也。

原创扩散模型与强化学习(0)：专栏汇总与导航

最近强化学习在Diffusion Models得到了越来越多广泛的应用，本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。

2025-06-22 17:11:34 236 2

原创畅游Diffusion数字人(0)：专栏文章导航

畅游Diffusion数字人(0)：专栏文章导航

2024-11-26 19:27:04 883 2

原创 Diffusion Models视频生成-博客汇总

Diffusion Models视频生成-博客汇总

2023-10-28 12:44:08 4711 31

原创手把手写深度学习(0)：专栏文章导航

手把手写深度学习(0)：专栏文章导航

2023-09-27 18:40:27 1527 14

原创 Diffusion models代码解读：入门与实战

Diffusion models代码解读：系列文章汇总导航

2022-09-24 12:08:13 16469 63

原创 Diffusion Models专栏文章汇总：入门与实战

《DiffusionModels与深度学习》专栏文章导航

2022-02-21 21:55:40 39721 43

原创手把手写C++服务器(0)：专栏文章-汇总导航【持续更新】

手把手写C++服务器(1)：网络编程常见误区手把手写C++服务器(2)：C/C++编译链接模型、函数重载隐患、头文件使用规范手把手写C++服务器(3)：C++编译常见问题、编译优化方法、C++库发布方式手把手写C++服务器(4)：Linux四大必备网络分析工具手把手写C++服务器(6)：编译实操——打开gcc/g++世界手把手写C++服务器(7)——给C语言程序员看的C++科普手把手写C++服务器(8)：常用boost之program_options命令行参数解析

2021-07-28 11:58:34 4877 51

原创经典必刷LeetCode汇总

LeetCode题目分类Hash相关q1_两数之和链表操作q2_两数相加 q19_删除链表的倒数第N个节点 q61_旋转链表 q138_复制带随机指针的链表 q206_反转链表双指针遍历/滑动窗口q3_无重复字符的最长子串 q11_盛最多水的容器 q15_三数之和 q16_最接近的三数之和 q26_删除排序数组中的重复项 q42_接雨水 q121_买卖股票的...

2020-04-12 15:04:05 4083 2

原创每日AIGC最新进展(88)：月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT

月之暗面提出Anything-to-Audio生成AudioX、浙江大学提出基于潜在运动的肖像视频生成、百度提出人类手势与语音节奏同步的视频生成Cosh-DiT

2025-07-10 09:00:00 788

原创每日AIGC最新进展(87)：字节跳动提出通过相机控制的视频扩散模型实现大规模动态场景CameraCtrl II、微软提出3D引导的可控视频生成I2V3D、高德提出运动规律视频测评VMBench

字节跳动提出通过相机控制的视频扩散模型实现大规模动态场景CameraCtrl II、微软提出3D引导的可控视频生成I2V3D、高德提出运动规律视频测评VMBench

2025-07-09 08:45:00 645

原创每日AIGC最新进展(86)：字节跳动提出多物体组合视频生成CINEMA、CVPR2025 自回归Mesh生成TreeMeshGPT、南京大学提出视频中插入单图对象方法DreamInsert

字节跳动提出多物体组合视频生成CINEMA、CVPR2025 自回归Mesh生成TreeMeshGPT、南京大学提出视频中插入单图对象方法DreamInsert

2025-07-08 08:30:00 798 1

原创每日AIGC最新进展(85)：华中科技大学提出视觉空间人物思维链EmbodiedVSR、腾讯提出VLM-Guide Mesh生成PBR3DGen、TCD提出使用Jensen蒸馏的Text-to-3D

华中科技大学提出视觉空间人物思维链EmbodiedVSR、腾讯提出VLM-Guide Mesh生成PBR3DGen、TCD提出使用Jensen蒸馏的Text-to-3D

2025-07-07 09:00:00 1062

原创每日AIGC最新进展(84)：清华大学提出高效视频理解FastVID、多伦多大学提出长时间视频理解模型Vamba、杭州电子科技大学提出反事实推理多模态大模型Bench COVER

清华大学提出高效视频理解FastVID、多伦多大学提出长时间视频理解模型Vamba、杭州电子科技大学提出反事实推理多模态大模型Bench COVER

2025-07-06 15:09:56 760

原创每日AIGC最新进展(83)：华为提出频驱动的通用肖像视频编辑RASA、香港科技大学提出长视频生成Multi-Agent、北京大学提出高效视频到音频生成模型TA-V2A

华为提出频驱动的通用肖像视频编辑RASA、香港科技大学提出长视频生成Multi-Agent、北京大学提出高效视频到音频生成模型TA-V2A

2025-07-05 08:45:00 782

原创每日AIGC最新进展(82)：耶鲁大学提出自回归视频生成统一框架Meta-ARVDM、弗吉尼亚州立大学提出视频参照抠图VRMDiff、中山大学提出大型的任务导向手-物体交互视频数据集TASTE-Rob

耶鲁大学提出自回归视频生成统一框架Meta-ARVDM、弗吉尼亚州立大学提出视频参照抠图VRMDiff、中山大学提出大型的任务导向手-物体交互视频数据集TASTE-Rob

2025-07-04 08:45:00 527

原创每日AIGC最新进展(81)：快手提出生成视频重渲染框架ReCamMaster、天津大学提出多任务视频修复框架MTV-Inpaint、微软提出新文生视频框架HiTVideo

快手提出生成视频重渲染框架ReCamMaster、天津大学提出多任务视频修复框架MTV-Inpaint、微软提出新文生视频框架HiTVideo

2025-07-03 08:45:00 1062 1

原创扩散模型与强化学习(11)：解读经典Diffusion-DPO

本文提出Diffusion-DPO方法，通过直接优化人类偏好数据来对齐文本到图像扩散模型。该方法基于直接偏好优化(DPO)框架，重新设计损失函数以适应扩散模型的似然特性。实验使用85.1万对Pick-a-Pic数据集微调Stable Diffusion XL模型，结果表明该方法在视觉吸引力和文本对齐度上显著优于基线模型。研究还探索了AI反馈替代人工评估的可行性，发现使用PickScore等评分模型训练能进一步提升性能，为扩散模型对齐提供了新方向。

2025-07-02 08:45:00 1423

原创扩散模型与强化学习(10)：解读第一个视频生成DPO的工作VideoDPO

本文提出VideoDPO方法，通过改进直接偏好优化(DPO)来解决视频扩散模型存在的视觉质量与文本-视频对齐问题。作者设计了OmniScore综合评分系统，同时评估视频质量和语义对齐度，并开发自动化流程生成偏好对数据，无需人工标注。实验表明，该方法显著提升了生成视频的视觉保真度和语义一致性，为多维度偏好对齐提供了有效解决方案。

2025-07-01 08:30:00 378

原创扩散模型与强化学习(9)：Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization

本文提出了一种基于人类偏好对齐的扩散框架，用于生成高度动态和逼真的音频驱动肖像动画。通过构建专门的人类偏好数据集，并引入定向偏好优化和时序运动调制两大创新，解决了唇部同步、表情自然度和运动连贯性等关键挑战。该方法在UNet和DiT架构中均表现出优势，实验表明其显著提升了唇音同步精度和面部表现力，同时在人类偏好指标上优于现有基线。研究还发布了首个针对肖像动画的偏好数据集，为相关领域研究提供了重要资源。该框架为高保真肖像动画的生成提供了新的技术路径。

2025-06-30 09:00:00 994

原创扩散模型与强化学习(8)：解读Wan2.1 reward训练代码

本文介绍了如何利用奖励函数训练Wan2.1视频生成模型。文章详细讲解了四种奖励函数（美学奖励、HPS奖励、PickScore奖励和MPS奖励）的实现方法，并提供了完整的训练代码。通过控制计算图的保存范围来优化内存使用，只保留关键步骤的计算图，避免计算图爆炸。该方法适用于视频生成强化学习任务，为相关研究提供了实用参考。

2025-06-29 13:10:53 578

原创扩散模型与强化学习(7)：用DPO改进音频驱动视频生成实践

本文提出了一种创新的人类偏好对齐扩散框架，用于生成音频和骨骼运动驱动的高质量肖像动画。该框架包含两个核心技术：1)针对肖像动画的定向偏好优化，通过构建人类偏好数据集优化生成结果；2)时间运动调制机制，将不同采样率的运动信号有效整合到扩散模型中，保持高频运动细节。实验表明，该方法在唇音同步、表情自然度和运动连贯性方面显著优于现有基线方法，同时提升了人类偏好评价指标。研究还发布了专门构建的肖像动画偏好数据集，为相关研究提供了新基准。

2025-06-28 09:00:00 68

原创扩散模型与强化学习(6)：快手可灵提出经典的视频Flow-DPO方法VideoAlign

本文提出了一种利用人类反馈改进视频生成的系统方法。研究团队构建了包含182k样本的多维人类偏好数据集（视觉质量、运动质量和文本对齐），并开发了VideoReward奖励模型。基于强化学习框架，研究者提出了三种基于流模型的对齐算法：Flow-DPO、Flow-RWR两种训练时方法和Flow-NRG推理时技术。实验表明，VideoReward优于现有模型，Flow-DPO表现最佳，而Flow-NRG支持推理时自定义质量权重。通过分离上下文相关与无关的评估维度，该方法显著提升了视频生成质量与可解释性。

2025-06-27 09:00:00 591

原创扩散模型与强化学习(5)：Flow-based Model与GRPO

最近在生成模型方面的突破- -特别是扩散模型和矫正流- -已经彻底改变了视觉内容的创造，但将模型输出与人类偏好保持一致仍然是一个关键的挑战。现有的基于强化学习( RL )的视觉生成方法存在严重的局限性：与基于常微分方程( ODEs )的现代采样范式不兼容、大规模训练不稳定以及缺乏视频生成的验证。本文介绍DanceGRPO，第一种将群体相对策略优化( Group Relative Policy Optimization，GRPO )适应于视觉生成范式的统一框架。

2025-06-26 09:00:00 943

原创扩散模型与强化学习(4)：PG/TRPO/PPO/DPO/GRPO的区别与联系

本文系统梳理了强化学习策略优化方法的演进过程，从PG（策略梯度）到TRPO（信任域策略优化）、PPO（近端策略优化）、DPO（直接偏好优化）直至GRPO（群组相对优化策略）。这一发展路径呈现出三大规律：1）从在线策略向离线策略迁移；2）策略稳定性不断提升；3）数据需求从环境交互转向静态偏好数据。文章重点对比了各算法核心思想与改进点：TRPO引入信任域约束解决PG的高方差问题，PPO通过Clip机制简化TRPO的复杂计算，DPO实现离线策略学习并利用人类偏好数据，而GRPO则在保持奖励模型的同时优化计算效率。

2025-06-25 09:00:00 1054

原创扩散模型与强化学习(3)：Skyreels-v2中的DPO实战

《Skyreels-v2: Infinite-length film generative model》中详细介绍了训练Flow-DPO的原理、方法、数据收集策略等，内容非常翔实，是训练Flow-DPO非常难得的一份参考资料。

2025-06-24 09:00:00 675

原创扩散模型与强化学习(2)：字节视频生成模型Seaweed-7B中的RLHF实践

虽然SFT在改善美观方面是有效的，但在SFT后经常观察到运动和结构的退化。在Seaweed-7B中，使用RLHF可以明显改善在改善结构和运动质量。

2025-06-23 08:45:00 925

原创扩散模型与强化学习(1)：字节Seedance中的人类偏好优化实践

最近强化学习在Diffusion Models得到了越来越多广泛的应用，本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。这篇博客介绍字节最新的视频生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的强化学习技术。

2025-06-22 17:07:46 843

原创 VLM引导的矢量草图生成AutoSketch

很久没有解读草图生成相关的论文了，这次解读国立台湾大学提出的最新论文“AutoSketch: VLM-assisted Style-Aware Vector Sketch Completion”，使用VLM补全草图生成，工作很有意思。

2025-06-08 21:18:07 859

原创详细解读InstantX团队最新力作个性化人物定制生成InstantCharacter代码和调参经验

InstantX团队自从推出了InstantID之后，再也没有像InstantID爆款的开源项目，但是近两年大佬们一直努力开源，这种精神令人敬仰。这篇博客解读InstantX最新的开源项目InstantCharacter。

2025-06-05 20:19:45 771

原创 OSError: Can‘t load tokenizer for ‘facebook/wav2vec2-large-xlsr-53‘. If you were trying to load it

在使用facebook/wav2vec2-large-xlsr-53进行音频编码时，遇到了无法加载分词器的问题，错误提示为OSError: Can't load tokenizer for 'facebook/wav2vec2-large-xlsr-53'。

2025-05-21 20:09:15 217

原创畅游Diffusion数字人(30)：情绪化数字人视频生成

仅从音频生成此类运动极具挑战性，因为它在音频和运动之间存在一对多的相关性。运动视频的情绪是多元化的选择，之前的工作很少考虑情绪化的数字人生成。今天解读一个最新的工作FLOAT，可以生成制定情绪化的数字人视频。

2025-05-20 10:51:44 881

原创畅游Diffusion数字人(29)：腾讯混元团队提出数字人表情控制HunyuanPortrait

之前解读过很多经典的表情控制的工作，如Echomimic、Follow-your-Emoji等。最近讯混元团队提出数字人表情控制HunyuanPortrait，这个工作在效果上明显超越了之前的工作，这篇博客详细解读一下这篇论文。

2025-05-19 11:40:52 647 2

原创畅游Diffusion数字人(28)：InstantID原班人马提出个性化人物定制InstantCharacter

InstantX实验室又推出大作啦，这次是InstantID的原作者联合腾讯混元提出了个性化人物定制的论文《InstantCharacter：Personalize Any Characters with a Scalable Diffusion Transformer Framework》。这个任务比ID保持难度大，更具有挑战性。这篇博客详细解读一下InstantCharacter的原理。

2025-04-25 15:08:22 727 2

原创 ValueError: Expected more than 1 value per channel when training, got input size torch.Size([1, 512]

在 PyTorch 中，批归一化（Batch Normalization，简称 BatchNorm）层在不同模式下（训练模式和测试模式）会有不同的行为。含有nn.BatchNorm1d(512) 网络的训练和测试。，并使用这些统计量来归一化输入数据。在训练模式下，批归一化层会。计算均值和方差，而是使用。在测试模式下，批归一化层。

2025-04-18 08:30:00 761

原创畅游Diffusion数字人(27)：解读字节跳动提出主题定制视频生成技术Phantom

主题定制视频生成，特别是zero-shot主题定制视频生成，一直是当前领域的一个难点，之前的方法效果很差。字节跳动提出了一个技术主题定制视频生成技术Phantom，效果相比于之前的技术进步非常显著。这篇博客详细解读一下这一工作。

2025-04-17 09:00:00 639

原创畅游Diffusion数字人(26)：腾讯音频驱动数字人技术Sonic

之前绝大多数Diffusion数字人都是基于AnimateDiff基础模型的，基于SVD基础模型的非常少。最近腾讯发布了基于SVD的数字人技术Sonic，效果非常好，甚至比基于CogVideox的Hallo3的还要惊艳，值得深入研究。

2025-04-16 08:45:00 593

原创畅游Diffusion数字人(25)：长时间高分辨率音频驱动数字人技术Hallo2

时至今日，以长时间和高分辨率为卖点的数字人技术依旧很少。这篇博客解读一篇经典的论文，也是Hallo系列的力作之一Hallo2: Long-Duration and High-Resolution Audio-driven Portrait Image Animation。

2025-04-15 09:45:00 408

原创代码解读：详细解读Diffusion ID保持生成经典工作InstantID

InstantID是ID保持生成的经典工作，后续大量图片/视频ID保持的工作都是基于这个工作完成的。这篇博客从代码出发，并结合原理，详细解读一下InstantID的代码。

2025-04-14 09:30:00 214

原创 AIGC算法工程师-面试八股文-2025年版本-算法八股文/工程八股文/开放式问题

两年前整理了《AIGC算法工程师面试八股文》，全网一共有100w读者看过，收到了很多小伙伴的催更。Diffusion的技术发展非常快，博主特意整理了最近两年最新的八股文，内容非常全面，涵盖算法八股文/工程八股文/开放式问题三个大类，希望能为求职的读者们带来帮助。

2025-04-14 00:39:15 1742 2

原创畅游Diffusion数字人(24)：基于CogVideoX的表情驱动视频生成技术SkyReels-A1

用传统的3DMM方法做表情驱动局限性非常大，现有的方法仍然会遇到身份失真、背景不稳定和不切实际的面部动态等问题，特别是在纯头部动画场景中，并且不同的身体比例通常会导致视觉不一致或不自然的关节。这篇博客介绍使用CogVideoX作为基础模型的唯一表情驱动生成的工作SkyReels-A1，能够完美解决之前3DMM的问题。

2025-04-13 10:00:00 840

Generative Adversarial nets鉴赏.pdf

Ian Goodfellow2014年生成对抗网那篇开山论文的赏析讲解，经典中的经典！对搞GAN的会有帮助的

2019-09-27

西安电子科技大学-返校宣讲PPT

2020年西安电子科技大学返校宣讲PPT；上传时设置所需积分为0！！主要用于本科生招生；制作精美；主要用于西安电子科技大学对中学生的宣传工作；

2020-11-16

2019年西安电子科技大学《自动控制原理》期末试卷

2019年西安电子科技大学《自动控制原理》期末试卷；西电的复印店最早的试卷只有2016年的！自动控制原理、系统控制工程均可参考

2020-01-08

西北工业大学空气动力学期末考试试卷

西北工业大学《空气动力学》期末考试试卷，空气动力学题库，可供西工大航空学院、航天学院、航海学院等使用，极具参考价值！

2020-08-16

中国大学生计算机设计大赛·国家级一等奖作品·资料汇总

中国大学生计算机设计大赛国家级一等奖作品，包括完整答辩视频、答辩PPT、万字经验总结、演示视频、作品源代码、作品海报介绍、详细教程等等

2021-05-19

西安电子科技大学射频电路实验报告

西安电子科技大学射频电路实验报告；射频实验；射频电路；射频实验报告；电子工程学院；通信工程学院；空间科学与技术学院等

2020-11-30

ShapeNet数据集

ShapeNet是一个由对象的三维CAD模型表示的丰富注释的，大规模的形状存储库。ShapeNet包含来自多种语义类别的3D模型，并按照WordNet分类法组织它们。它是一组数据集，为每个3D模型提供许多语义标注，如一致的刚性对准、零件和双边对称平面、物理尺寸、关键字以及其他计划的标注。注释通过基于web的公共接口提供，以支持对象属性的数据可视化，促进数据驱动的几何分析，并为计算机图形学和视觉研究提供大规模定量基准。ShapeNet已经索引了超过300万个模型，其中22万个模型被分为3135个类别(WordNet synsets)。

2021-02-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Generative Adversarial nets鉴赏.pdf

西安电子科技大学-返校宣讲PPT

2019年西安电子科技大学《自动控制原理》期末试卷

西北工业大学 空气动力学 期末考试试卷

中国大学生计算机设计大赛·国家级一等奖作品·资料汇总

西安电子科技大学射频电路实验报告

ShapeNet数据集

西安电子科技大学-《数字图像处理》PPT课件全套

西安电子科技大学 射频电路 全套课件

电子信息/通信/计算机专业 保研资料汇总

2020年全国大学生计算机能力挑战赛官方真题

西安电子科技大学 数字图像处理 大作业源代码

西安电子科技大学《通信原理》期末试题.pdf

2016年-2019年西安电子科技大学《自动控制原理》期末试卷汇总.zip

西安电子科技大学专属信纸底板.docx

2011年-2017年全国大学生电子综合测评所有仿真电路图大全

Go语言TCP通信客户端和服务器端(包含代码和可执行程序)

国内大厂-后台开发面经汇总(5万字).zip

2020年西安电子科技大学B测源代码.zip

北京邮电大学信通院和人工智能学院导师组介绍

Webvid-10M数据集 完整版-第一部分

Webvid-1M原始数据集完整版-第二部分

Webvid-10M 数据集-第四部分

Webvid-1M原始数据集完整版-第三部分

中医证素辨证挖掘与疾病的关系

2021 842真题回忆整理

《常微分方程》考研考点精讲及思路解析

基于pluto的通信系统-发送接收端matlab代码-点对点通信

数学专业考研复试资料：实变函数与泛函分析要点

数学专业 考研复试 面试真题汇总(2)

手写英文字母数据集【附使用方法】

【期末考试答案】信息素养——学术研究的必修课

2021年 华中师范大学 数学分析 考研真题

《教育知识与能力》中学教资教材

普通话考试 高分通过秘籍指南

小学信息学竞赛-第2课

天文学-全部课件(全)

小学信息学课件-第1课信息学编程入门

2019年（下）全国教师资格证中学-科目二

2021年（上）全国中学教资资格证考试-科目二

空空如也

西北工业大学空气动力学期末考试试卷

西安电子科技大学射频电路全套课件

电子信息/通信/计算机专业保研资料汇总

西安电子科技大学数字图像处理大作业源代码

Webvid-10M数据集完整版-第一部分

数学专业考研复试面试真题汇总(2)

2021年华中师范大学数学分析考研真题

普通话考试高分通过秘籍指南