AkanthaWang-CSDN博客

原创 PyTorch 模型镜像下载与安装指南

在国内，由于网络限制，直接从 PyTorch 官方源下载可能会遇到速度慢或无法访问的问题。为了解决这一问题，可以使用国内镜像源来加速下载和安装 PyTorch。

2025-06-26 17:08:16 402

原创 GitHub实用手册

GitHub 是一个基于 Git 的分布式版本控制系统，它允许开发者在本地和远程仓库中管理代码版本，支持多人协作开发项目，并提供了一系列工具和功能来简化开发流程。

2025-04-15 13:27:48 850

原创 DDVQA：Common Sense Reasoning for Deepfake Detection

DDVQA介绍了一种新的深度伪造检测方法，称为深度伪造检测VQA（DDVQA）任务。该方法通过提供文本解释来模拟人类的直觉，解释图像为何被标记为真实或伪造。研究者们引入了一个新的注释数据集，并提出了一个基于视觉和语言的Transformer框架来处理DD-VQA任务。此外，他们还结合了文本和图像感知特征对齐来增强多模态表示学习。

2025-04-09 16:19:58 143

原创 RPA相关介绍

RPA（Robotic Process Automation）即机器人流程自动化，通过软件机器人模拟人类操作规则，自动执行重复性、高结构化任务。

2025-04-02 11:53:05 841

原创 REFT: Reasoning with REinforced Fine-Tuning

CoT训练样本通常只包含一条正确的推理路径，使用CoT数据进行SFT，只能让模型学习到相对较弱的推理能力。因为针对同一个问题，还有很多条有效的推理路径。这表明了新微调方法的必要性——ReFT。ReFT在相同数据集上能获得比SFT更多的监督信号，从而取得更好的效果。ReFT首先使用SFT进行预热（warm-up），使模型获得一定的CoT能力，供后续能够进行sample。接着使用PPO进行在线采样和优化。

2025-03-17 14:24:25 776

原创 Python GUI 之创建一个圆形进度条控件：RoundProgress

在图形用户界面（GUI）设计中，进度条是一种常见的元素，用于直观地展示任务的完成进度。实现自定义圆形进度条控件，这个控件不仅具有基本的进度显示功能，还支持多种颜色自定义和渐变效果。

2025-03-01 17:08:53 134

原创 python GUI之实现一个自定义的范围滑块控件：QRangeSlider

在图形用户界面（GUI）开发中，滑块控件是一种常用于选择数值范围的交互元素。然而，很多时候默认的滑块控件无法满足复杂的交互需求，例如同时选择一个范围的起始值和结束值。为此，实现了一个自定义的范围滑块控件——QRangeSlider，它允许用户通过拖动两个滑块来选择一个数值范围，并且支持动态显示当前值。

2025-03-01 00:31:02 738

原创 Python之使用动态导包优化软件加载速度

在开发大型 Python 软件时，可能会遇到以下问题：由于静态导入了大量模块，导致软件启动时间过长，用户体验不佳。例如，一个复杂的桌面应用程序或 Web 服务可能依赖于多个大型库（如 numpy、pandas、torch 或 Yolo），这些库在启动时被静态导入，即使某些功能模块在启动时并不需要立即使用。这种情况下，静态导入会显著增加软件的启动时间，故使用动态导入。

2025-03-01 00:07:54 1061

原创 Python GUI开发：PyQt5 vs. PySide6

如果使用PyQt5开发项目，需要购买商业许可证，而PySide可以免费使用。

2025-02-26 12:35:59 651

原创 Python工具对决：cx_Freeze vs. PyInstaller

在 Python 开发的广阔天地里，我们常常会遇到一个需求：将精心编写的 Python 程序分享给他人使用。然而，并非所有的目标设备都预先安装了 Python 环境，这时候，就轮到程序打包工具闪亮登场啦！今天，咱们就来深入聊聊两款备受瞩目的 Python 打包神器 ——cx_Freeze 与 PyInstaller，看看它们如何各显神通，帮我们轻松搞定程序分发难题。

2025-01-10 14:57:25 1072

原创 LaRE2: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection

扩散模型的发展极大地提高了图像生成质量，使得区分真实图像和生成图像变得越来越困难。这一发展虽然令人印象深刻，但也引发了严重的隐私和安全问题。针对这一情况，我们提出了一种新的基于潜在重建误差引导的特征细化方法（Latent REconstruction error guided feature REfinement method，LaRE²）用于检测扩散生成的图像。

2025-01-03 15:16:11 211

原创 TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP

CLIP被训练用对比损失对齐图像-文本对，目的是将图像与相应的文本描述相匹配，并与其他图像区分开来。由于这种损失而导致的softmax操作造成了不同类别之间的竞争，这不利于多标签设置；CLIP被训练为通过使用类标记的唯一全局嵌入来表示整个图像，而不显式地捕获特定区域的局部特征。

2025-01-03 11:06:48 737

原创 DIRE: DIRE for Diffusion-Generated Image Detection

随着扩散模型在图像生成领域的广泛应用，其潜在的恶意滥用问题引发了关注。本文提出一种名为 DIffusion Reconstruction Error（DIRE）的图像表示方法，用于检测扩散生成图像，并建立了一个全面的扩散生成基准数据集 DiffusionForensics，以评估相关检测器的性能。

2025-01-03 10:15:19 413

原创 LSDA：Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake

通过潜在空间增强超越伪造特定性，实现可泛化的深度伪造检测

2024-12-31 09:52:52 356

原创 CFM：Beyond the Prior Forgery Knowledge: Mining Critical Clues for General Face Forgery Detection

通过先验的不可知的数据增强抑制伪造痕迹细粒度关系模型；渐进式学习控制器引导模型专注于主要特征组件，可以从粗到细学习关键伪造特征；实例和局部相似性感知损失挖掘伪造的关键信息。

2024-12-31 09:36:06 101

原创 OPR：Can We Leave Deepfake Data Behind in TrainingDeepfake Detector?

"Can We Leave Deepfake Data Behind in TrainingDeepfake Detector?"提出将 “真实到 blendfake 到深度伪造” 视为渐进过渡的方法，通过有序组织锚点和模拟连续过渡提升检测性能。

2024-12-30 11:30:04 88

原创 BlendFace: Re-designing Identity Encoders for Face-Swapping

本文提出了BlendFace，一种新的身份编码器，通过在混合图像上训练人脸识别模型，减少属性偏差，从而实现更好的身份与属性解耦。实验结果表明，BlendFace在身份相似性和属性保留方面表现优异，与现有方法相比，在视觉一致性上有所提升。尽管存在一些局限性，BlendFace为后续的面部相关研究提供了新的思路和方法。

2024-12-24 15:30:49 109

原创 SoftMoE：From sparse to soft mixtures of experts

Soft MoE是一种全可微分的稀疏Transformer架构，旨在解决传统稀疏混合专家模型（Sparse Mixture of Experts, MoEs）在训练稳定性、扩展专家数量、微调效果等方面的问题。Soft MoE通过软分配机制，将输入标记的不同加权组合传递给每个专家，而不是像传统MoE那样进行硬分配。这种方法避免了传统MoE中的标记丢失和专家不平衡问题，同时保持了MoE在推理成本较低的情况下扩展模型容量的优势。

2024-12-23 17:53:02 1066

原创 RetouchingFFHQ: A Large-scale Dataset for Fine-grained Face Retouching Detection

"RetouchingFFHQ: A Large-scale Dataset for Fine-grained Face Retouching Detection"文章介绍了 RetouchingFFHQ 数据集，将人脸美颜检测问题扩展为细粒度多标签问题，并提出 MAM 增强特征提取。实验表明，该数据集和方法在人脸修图检测上性能良好，有望推动该领域研究。

2024-12-22 21:36:29 182

原创 PromptGIP：Unifying lmage Processing as Visual Prompting Question Answering

Unifying Image Processing as Visual Prompting Question Answering” 文章提出了一种名为 PromptGIP 的通用模型，将图像处理任务统一为视觉提示问答范式，在多个图像处理任务上展现出良好性能，为通用图像处理提供了新的思路和方法。

2024-12-22 17:56:29 1322

原创 FM-CLIP: Flexible Modal CLIP for Face Anti-Spoofing

FM-CLIP: Flexible Modal CLIP for Face Anti-Spoofing”由澳门科技大学、中国科学院等单位的Ajian Liu、Hui Ma等人撰写。文章提出了一种名为FM-CLIP的新型灵活模态人脸反欺诈（FAS）方法，通过利用文本特征动态调整视觉特征以实现模态独立性，在多模态数据集上取得了优于现有方法的性能。

2024-12-20 15:26:09 230

原创 DA-CLIP：Controlling Vision-Language Models for Universal Image Restoration

尽管CLIP在high-level的视觉任务中有较好的性能，但当涉及到low-level的视觉任务（如图像恢复）时，由于输入图像的退化，它们的性能会急剧下降。因此本文方法的核心就是控制预训练的CLIP模型，能够从退化图像中输出高质量的图像特征，并且同时预测退化类型。

2024-12-20 10:10:05 1522

原创 FaceForensics++: Learning to Detect Manipulated Facial Images

FaceForensics++: Learning to Detect Manipulated Facial Images”旨在应对合成图像操纵带来的信任危机，主要贡献包括提出面部操纵检测自动化基准、构建大规模数据集、评估多种伪造检测方法及设计专门检测方法。

2024-12-20 08:32:58 357

原创 DH_Live部署与训练方法详述

致力于让每个人都能够轻松创建和使用数字人，推动数字人技术的普及和应用，为用户提供一个全面的数字人解决方案

2024-12-19 11:07:41 2690

原创深入探讨模型部署：初始化与内存管理的艺术

模型部署是一个综合性、系统性的工程，其中模型初始化的选择和内存管理策略。

2024-12-19 08:47:05 760

原创 EchoMimicV2: Towards Striking, Simplified, ad Semi-Body Human Animationn

姿势采样初期与迭代阶段提升性能，APDH 用单手姿势实现稳定动画；如手部动作更自然流畅、关节活动精准，面部表情与整体姿态及音频配合协调，细节丰富真实，合成人物似从同一源图像生成，无违和感与身份偏差，表明其在半身动画生成质量上具优势。动作契合音频节奏韵律与情感内涵，速度、力度及幅度随音频变化合理，无卡顿、生硬或不连贯状况，体现其音频驱动半身动画技术的先进性。输入多元变化时，人物动画稳定性与准确性佳，音频与动作同步紧密，不同角色形象塑造鲜活、手势表意清晰准确，展示其在复杂输入下的强适应性与高泛化能力。

2024-12-19 08:41:52 938

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DH-Live部署与训练的相关代码

语音驱动数字人口型生成相关论文

Unity游戏开发-时空枪刃-双重现实

论文算法汇报PPT参考模板

空空如也