自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 PyTorch 模型镜像下载与安装指南

在国内,由于网络限制,直接从 PyTorch 官方源下载可能会遇到速度慢或无法访问的问题。为了解决这一问题,可以使用国内镜像源来加速下载和安装 PyTorch。

2025-06-26 17:08:16 402

原创 GitHub实用手册

GitHub 是一个基于 Git 的分布式版本控制系统,它允许开发者在本地和远程仓库中管理代码版本,支持多人协作开发项目,并提供了一系列工具和功能来简化开发流程。

2025-04-15 13:27:48 850

原创 DDVQA:Common Sense Reasoning for Deepfake Detection

DDVQA介绍了一种新的深度伪造检测方法,称为深度伪造检测VQA(DDVQA)任务。该方法通过提供文本解释来模拟人类的直觉,解释图像为何被标记为真实或伪造。研究者们引入了一个新的注释数据集,并提出了一个基于视觉和语言的Transformer框架来处理DD-VQA任务。此外,他们还结合了文本和图像感知特征对齐来增强多模态表示学习。

2025-04-09 16:19:58 143

原创 RPA相关介绍

RPA(Robotic Process Automation)即机器人流程自动化,通过软件机器人模拟人类操作规则,自动执行重复性、高结构化任务。

2025-04-02 11:53:05 841

原创 REFT: Reasoning with REinforced Fine-Tuning

CoT训练样本通常只包含一条正确的推理路径,使用CoT数据进行SFT,只能让模型学习到相对较弱的推理能力。因为针对同一个问题,还有很多条有效的推理路径。这表明了新微调方法的必要性——ReFT。ReFT在相同数据集上能获得比SFT更多的监督信号,从而取得更好的效果。ReFT首先使用SFT进行预热(warm-up),使模型获得一定的CoT能力,供后续能够进行sample。接着使用PPO进行在线采样和优化。

2025-03-17 14:24:25 776

原创 Python GUI 之创建一个圆形进度条控件:RoundProgress

在图形用户界面(GUI)设计中,进度条是一种常见的元素,用于直观地展示任务的完成进度。实现自定义圆形进度条控件,这个控件不仅具有基本的进度显示功能,还支持多种颜色自定义和渐变效果。

2025-03-01 17:08:53 134

原创 python GUI之实现一个自定义的范围滑块控件:QRangeSlider

在图形用户界面(GUI)开发中,滑块控件是一种常用于选择数值范围的交互元素。然而,很多时候默认的滑块控件无法满足复杂的交互需求,例如同时选择一个范围的起始值和结束值。为此,实现了一个自定义的范围滑块控件——QRangeSlider,它允许用户通过拖动两个滑块来选择一个数值范围,并且支持动态显示当前值。

2025-03-01 00:31:02 738

原创 Python之使用动态导包优化软件加载速度

在开发大型 Python 软件时,可能会遇到以下问题:由于静态导入了大量模块,导致软件启动时间过长,用户体验不佳。例如,一个复杂的桌面应用程序或 Web 服务可能依赖于多个大型库(如 numpy、pandas、torch 或 Yolo),这些库在启动时被静态导入,即使某些功能模块在启动时并不需要立即使用。这种情况下,静态导入会显著增加软件的启动时间,故使用动态导入。

2025-03-01 00:07:54 1061

原创 Python GUI开发:PyQt5 vs. PySide6

如果使用PyQt5开发项目,需要购买商业许可证,而PySide可以免费使用。

2025-02-26 12:35:59 651

原创 Python工具对决:cx_Freeze vs. PyInstaller

在 Python 开发的广阔天地里,我们常常会遇到一个需求:将精心编写的 Python 程序分享给他人使用。然而,并非所有的目标设备都预先安装了 Python 环境,这时候,就轮到程序打包工具闪亮登场啦!今天,咱们就来深入聊聊两款备受瞩目的 Python 打包神器 ——cx_Freeze 与 PyInstaller,看看它们如何各显神通,帮我们轻松搞定程序分发难题。

2025-01-10 14:57:25 1072

原创 LaRE2: Latent Reconstruction Error Based Method for Diffusion-Generated Image Detection

扩散模型的发展极大地提高了图像生成质量,使得区分真实图像和生成图像变得越来越困难。这一发展虽然令人印象深刻,但也引发了严重的隐私和安全问题。针对这一情况,我们提出了一种新的基于潜在重建误差引导的特征细化方法(Latent REconstruction error guided feature REfinement method,LaRE²)用于检测扩散生成的图像。

2025-01-03 15:16:11 211

原创 TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP

CLIP被训练用对比损失对齐图像-文本对,目的是将图像与相应的文本描述相匹配,并与其他图像区分开来。由于这种损失而导致的softmax操作造成了不同类别之间的竞争,这不利于多标签设置;CLIP被训练为通过使用类标记的唯一全局嵌入来表示整个图像,而不显式地捕获特定区域的局部特征。

2025-01-03 11:06:48 737

原创 DIRE: DIRE for Diffusion-Generated Image Detection

随着扩散模型在图像生成领域的广泛应用,其潜在的恶意滥用问题引发了关注。本文提出一种名为 DIffusion Reconstruction Error(DIRE)的图像表示方法,用于检测扩散生成图像,并建立了一个全面的扩散生成基准数据集 DiffusionForensics,以评估相关检测器的性能。

2025-01-03 10:15:19 413

原创 LSDA:Transcending Forgery Specificity with Latent Space Augmentation for Generalizable Deepfake

通过潜在空间增强超越伪造特定性,实现可泛化的深度伪造检测

2024-12-31 09:52:52 356

原创 CFM:Beyond the Prior Forgery Knowledge: Mining Critical Clues for General Face Forgery Detection

通过先验的不可知的数据增强抑制伪造痕迹细粒度关系模型;渐进式学习控制器引导模型专注于主要特征组件,可以从粗到细学习关键伪造特征;实例和局部相似性感知损失挖掘伪造的关键信息。

2024-12-31 09:36:06 101

原创 OPR:Can We Leave Deepfake Data Behind in TrainingDeepfake Detector?

"Can We Leave Deepfake Data Behind in TrainingDeepfake Detector?"提出将 “真实到 blendfake 到深度伪造” 视为渐进过渡的方法,通过有序组织锚点和模拟连续过渡提升检测性能。

2024-12-30 11:30:04 88

原创 BlendFace: Re-designing Identity Encoders for Face-Swapping

本文提出了BlendFace,一种新的身份编码器,通过在混合图像上训练人脸识别模型,减少属性偏差,从而实现更好的身份与属性解耦。实验结果表明,BlendFace在身份相似性和属性保留方面表现优异,与现有方法相比,在视觉一致性上有所提升。尽管存在一些局限性,BlendFace为后续的面部相关研究提供了新的思路和方法。

2024-12-24 15:30:49 109

原创 SoftMoE:From sparse to soft mixtures of experts

Soft MoE是一种全可微分的稀疏Transformer架构,旨在解决传统稀疏混合专家模型(Sparse Mixture of Experts, MoEs)在训练稳定性、扩展专家数量、微调效果等方面的问题。Soft MoE通过软分配机制,将输入标记的不同加权组合传递给每个专家,而不是像传统MoE那样进行硬分配。这种方法避免了传统MoE中的标记丢失和专家不平衡问题,同时保持了MoE在推理成本较低的情况下扩展模型容量的优势。

2024-12-23 17:53:02 1066

原创 RetouchingFFHQ: A Large-scale Dataset for Fine-grained Face Retouching Detection

"RetouchingFFHQ: A Large-scale Dataset for Fine-grained Face Retouching Detection"文章介绍了 RetouchingFFHQ 数据集,将人脸美颜检测问题扩展为细粒度多标签问题,并提出 MAM 增强特征提取。实验表明,该数据集和方法在人脸修图检测上性能良好,有望推动该领域研究。

2024-12-22 21:36:29 182

原创 PromptGIP:Unifying lmage Processing as Visual Prompting Question Answering

Unifying Image Processing as Visual Prompting Question Answering” 文章提出了一种名为 PromptGIP 的通用模型,将图像处理任务统一为视觉提示问答范式,在多个图像处理任务上展现出良好性能,为通用图像处理提供了新的思路和方法。

2024-12-22 17:56:29 1322

原创 FM-CLIP: Flexible Modal CLIP for Face Anti-Spoofing

FM-CLIP: Flexible Modal CLIP for Face Anti-Spoofing”由澳门科技大学、中国科学院等单位的Ajian Liu、Hui Ma等人撰写。文章提出了一种名为FM-CLIP的新型灵活模态人脸反欺诈(FAS)方法,通过利用文本特征动态调整视觉特征以实现模态独立性,在多模态数据集上取得了优于现有方法的性能。

2024-12-20 15:26:09 230

原创 DA-CLIP:Controlling Vision-Language Models for Universal Image Restoration

尽管CLIP在high-level的视觉任务中有较好的性能,但当涉及到low-level的视觉任务(如图像恢复)时,由于输入图像的退化,它们的性能会急剧下降。因此本文方法的核心就是控制预训练的CLIP模型,能够从退化图像中输出高质量的图像特征,并且同时预测退化类型。

2024-12-20 10:10:05 1522

原创 FaceForensics++: Learning to Detect Manipulated Facial Images

FaceForensics++: Learning to Detect Manipulated Facial Images”旨在应对合成图像操纵带来的信任危机,主要贡献包括提出面部操纵检测自动化基准、构建大规模数据集、评估多种伪造检测方法及设计专门检测方法。

2024-12-20 08:32:58 357

原创 DH_Live部署与训练方法详述

致力于让每个人都能够轻松创建和使用数字人,推动数字人技术的普及和应用,为用户提供一个全面的数字人解决方案

2024-12-19 11:07:41 2690

原创 深入探讨模型部署:初始化与内存管理的艺术

模型部署是一个综合性、系统性的工程,其中模型初始化的选择和内存管理策略。

2024-12-19 08:47:05 760

原创 EchoMimicV2: Towards Striking, Simplified, ad Semi-Body Human Animationn

姿势采样初期与迭代阶段提升性能,APDH 用单手姿势实现稳定动画;如手部动作更自然流畅、关节活动精准,面部表情与整体姿态及音频配合协调,细节丰富真实,合成人物似从同一源图像生成,无违和感与身份偏差,表明其在半身动画生成质量上具优势。动作契合音频节奏韵律与情感内涵,速度、力度及幅度随音频变化合理,无卡顿、生硬或不连贯状况,体现其音频驱动半身动画技术的先进性。输入多元变化时,人物动画稳定性与准确性佳,音频与动作同步紧密,不同角色形象塑造鲜活、手势表意清晰准确,展示其在复杂输入下的强适应性与高泛化能力。

2024-12-19 08:41:52 938

原创 LangChain

LangChain 就是对这些通用逻辑做了封装,让使用者可以不用关注在与大模型之间的交互细节能够更专注在业务本身上,通过组合模块和能力抽象来扩展LLM 的能力,通过chain、agent、model等多种封装工具,提供了扩展 LLM 使用场景、便捷 LLM 调用方式的一系列功能。以下是一个使用LangChain中Indexes相关功能的示例代码,展示了如何从本地文本文件中加载文档,进行分割、创建嵌入向量,并实现基于向量存储的检索,以从文档中提取相关信息进行使用。

2024-12-18 16:01:10 1033

原创 API开发:Flask VS FastAPI

在当今的Web开发领域,选择合适的框架对于构建高效、稳定且易于维护的API至关重要。Flask和FastAPI是两个备受关注的Python Web框架,它们各自具有独特的特点和优势,适用于不同的开发场景。

2024-12-18 10:27:30 2751

原创 x2-DFD:A framework for explainable and explainable deepfake detection

该文章提出了X2-DFD框架,用于可解释和可扩展的深度伪造检测。通过评估大型多模态语言模型(MLLMs)在深度伪造检测中的内在能力,发现它们在不同伪造相关特征上的有效性各异。基于此,实施了针对性的微调策略,显著提高了MLLMs的解释能力,并整合了外部深度伪造检测器(EDDs),以结合MLLMs和传统检测器的互补优势,实现更好的检测和解释。

2024-12-10 17:11:49 217

原创 Can ChatGPT Detect DeepFakes?A Study of Using Multimodal Large Language Models for Media Forensics

探讨了使用多模态大型语言模型(LLMs)来检测深度伪造(DeepFakes)的潜力。深度伪造技术,即AI生成的媒体内容,因其在虚假信息传播中的使用而成为一个日益受到关注的问题。目前,深度伪造的检测主要依赖于编程实现的机器学习算法。文章的研究动机在于评估多模态LLMs在无需编程的情况下,是否能够有效地检测深度伪造图像。

2024-12-10 16:04:15 303

原创 语音驱动数字人口型生成

语音驱动数字人口型生成技术是一种利用人工智能技术,特别是深度学习技术,将输入的音频信号转换为数字人面部动作和表情的视频生成技术。这项技术的核心在于多模态数据的融合和呈现,即从音频中提取特征,并将这些特征转化为数字人面部的动作和表情,以生成与音频同步的视频内容。

2024-12-05 10:58:19 1393

原创 Python爬虫:证监会行政处罚爬取

在当今信息爆炸的时代,数据的价值日益凸显。爬虫技术作为一种自动化获取网络信息的手段,已经成为数据科学、市场分析、学术研究等领域不可或缺的工具。本文对于证监会行政处罚内容进行爬取并输出到excel中。

2024-12-04 11:06:09 1293

原创 Conda-Pack打包:高效管理Python环境

Conda-pack是一个工具,可以帮助我们将一个conda环境打包成一个可移植文件,这样我们可以轻松地在不同机器或操作系统上迁移和部署环境。

2024-12-03 14:54:33 1545

原创 中文语音识别技术实战

语音识别技术,也称为自动语音识别(Automatic Speech Recognition,ASR),其主要目标是将人类的语音中的词汇内容转换为相应的行动或文本。

2024-12-03 08:56:48 1341

原创 确保PyTorch实验可重复性:设置随机种子

在机器学习和深度学习领域,实验的可重复性是一个至关重要的方面。它确保了你的实验结果不仅在你的机器上有效,而且在其他研究人员的机器上也能复现。在PyTorch中,确保实验可重复性的关键步骤之一是正确地设置随机种子。

2024-12-03 08:36:51 841 4

原创 Redis开发实践

在现代开发中,Redis 已经成为一种重要的高性能内存数据库。无论是作为缓存、消息队列还是排行榜的实现工具,它都表现出了极高的性能和灵活性。本文将带你了解 Redis 的基本概念,并通过 Python 示例代码实现 Redis 的核心功能。

2024-12-02 09:51:45 1270

原创 深入了解阿里云 OSS:强大的云存储解决方案

阿里云 OSS(Object Storage Service)是阿里云提供的对象存储服务,它使得用户能够通过 Web 服务接口管理和存储海量数据。OSS 提供了高可用、高扩展性和高安全性的存储解决方案,适用于各类数据存储需求,从图片、音视频文件到日志数据、备份数据等都可以在 OSS 中存储。

2024-12-02 09:27:46 1497

原创 FreqBlender: Enhancing DeepFake Detection by Blending Frequency Knowledge

通过利用频率知识,FreqBlender可以生成与自然生成的伪造人脸分布非常相似的伪造人脸,从而补充现有的空间混合方法并与之结合使用。

2024-11-30 19:22:28 870

原创 指数移动平均(EMA)策略

指数移动平均(EMA)是一种加权移动平均的方法,它给予近期数据更高的权重,同时也考虑到了历史数据的影响。在神经网络领域,EMA 常被用于对模型参数进行平滑处理,使得网络模型在训练过程中能够更加稳定且泛化能力可能得到提升。

2024-11-30 19:03:33 1561

原创 Frp内网穿透

为了进行深度学习模型训练,使得内网环境下的服务器能被公网访问。将内网端口通过映射到公网机器上实现正常访问。

2024-08-13 18:30:36 743

DH-Live部署与训练的相关代码

DH-Live部署与训练的相关代码,包含预训练权重

2024-12-19

语音驱动数字人口型生成相关论文

语音驱动数字人口型生成技术是一种利用人工智能技术,特别是深度学习技术,将输入的音频信号转换为数字人面部动作和表情的视频生成技术。这项技术的核心在于多模态数据的融合和呈现,即从音频中提取特征,并将这些特征转化为数字人面部的动作和表情,以生成与音频同步的视频内容。收集语音驱动数字人口型相关论文资源。

2024-12-06

Unity游戏开发-时空枪刃-双重现实

游戏主题:一个充满想象力的科幻动作冒险游戏,玩家将扮演年轻的V,使用时空操控装置穿越不同的平行时空,与敌人进行激烈的战斗,阻止公司的阴谋,保护平行时空的自由与平衡。 游戏类型:科幻动作冒险游戏、第一人称战斗游戏。 游戏玩法:战斗、平行时空穿梭、探索。

2024-12-03

论文算法汇报PPT参考模板

论文算法汇报PPT参考模板

2024-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除