自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 MatAnyone本地部署,视频分割处理,绿幕抠像(WIN/MAC)

MatAnyone视频抠图工具使用指南:支持MAC和Windows系统摘要:本文介绍了MatAnyone视频抠图工具的使用方法,这是一款基于SAM2的AI工具,能够一键抠出视频中的主体并输出绿幕视频或AlphaMask视频。文章详细讲解了手动部署流程,包括代码克隆、环境配置、依赖安装等步骤,特别是针对MAC系统的特殊配置说明。使用教程部分展示了从视频上传到最终输出的完整操作流程。项目对硬件配置要求较高,Windows需10G显存,MAC需要M1/M2/M3/M4芯片和10G以上内存。文末还提供了整合包下载

2025-06-11 14:30:07 844

原创 SAM2Long本地部署,视频分割处理,绿幕抠像,超长视频支持

摘要:SAM2Long视频分割工具部署指南SAM2Long是一款优化版视频分割工具,能高效抠出视频主体并输出绿幕/透明背景视频。文章提供了两种部署方式:源码部署和一键包安装。源码部署需先安装PyTorch环境(pip install torch等),再通过pip安装本地SAM2代码库。关键步骤包括下载模型检查点,作者提供了Linux/macOS的shell脚本和Windows的bat脚本,用于自动下载4个不同版本的SAM2.1模型文件(tiny/small/base_plus/large)。脚本支持wge

2025-06-09 14:48:41 1018

原创 ParakeetTDT0.6BV2,语音识别ASR,极速转录, 高精度英文转录,标点支持(附整合包)

分享一个英伟达开源的高精度AI语音转文字神器——Parakeet-tdt-0.6b-v2!这款600亿参数的语音识别模型能实时将英文音频转化为带标点、大小写的文本,自动预测逐词时间戳,甚至能精准转录数字、歌词等复杂内容。

2025-05-28 14:39:06 424

原创 CustomSVG,一键生成SVG,文字秒变矢量图(WIN/MAC)

CustomSVG是一款AI矢量图生成工具,支持将输入的文字快速转换为可编辑的矢量图,并智能匹配水彩、漫画、极简等多种风格。

2025-05-23 18:45:00 846

原创 基于DeepSeek-R1实现本地/API知识库,并接入微信BOT

在上一篇,我们一起实现了本地部署DeepSeek-R1并接入了微信机器人,让它能跟我们聊天,今天,我要跟大家分享个更有意思的玩法:如何给咱们的 AI 助手喂点干货,让它变身成一个真正懂行的专业顾问!接下来我会手把手带大家完成整个知识库搭建过程,包括环境配置、知识库部署、上传资料,还有一些细节调优的小技巧。最后我们再把这个"充满知识"的AI接入微信机器人,打造一个真正懂你、懂行业的智能小助手!

2025-02-09 12:02:41 3471 22

原创 Janus-Pro,DeepSeek开源多模态大模型(WIN/MAC)

DeepSeek开源的多模态大模型,简单点说就是一个可以理解图片内容和生成图片的模型。目前有三个版本的模型,分别是:Janus、JanusFlow、Janus-Pro。看到这里,可能有小伙伴会觉得这个项目的应用场景比较有限。但据我了解,已经有小伙伴利用Janus的强大图文理解能力,将工程图纸、技术文档等PDF资料制作成智能知识库。这是他发我的截图:更棒的是,如果你看过我上一篇关于微信BOT的文章,完全可以把Janus接入进去,让你的机器人也具备看图说话、生成图片的能力!

2025-02-06 22:54:17 1538

原创 【从零开始】基于本地部署DeepSeek-R1实现微信智能聊天机器人

新年好!给大家拜年了!最近,我的朋友圈被DeepSeek相关的消息“刷屏”了!相信大家也都听说了咱们国产开源大模型——DeepSeek。网上关于如何本地部署DeepSeek的教程已经不少了,今天咱们就来点不一样的,结合实际案例,手把手带你玩转DeepSeek-R1,看看它到底有多强大!

2025-01-29 13:46:29 31669 74

原创 宝塔UDP服务器部署记录,unityClient,pythonServer

最近项目接到新需求,需要用Unity 客户端(发送端)控制另一台 Unity 客户端(接收端),中间用UDP服务器做数据中转。

2025-01-21 10:41:22 698

原创 信息: 用提供的模式无法找到文件。问题解决

最近遇到python项目运行就提示信息: 用提供的模式无法找到文件。的问题。虽然对程序来说没什么影响,但是强迫症的我看着很不爽。

2025-01-21 10:35:48 2479

原创 LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)

分享一个最近还不错的数字人项目——LatentSync。该项目由字节开源,上传一段音频和视频,即可生成数字人视频。我对该项目做了些更改,增加了批量和MAC版本的支持,用MAC的小伙伴再也不用遗憾了…看下我生成的效果。简单介绍下如何使用上传一段人物视频和你要生成人物说话的音频。点击处理视频等待视频生成批量模式的使用也相同,支持上传多个文件。批量模式下音频数量一定要和视频数量保持一致,如果缺少是会报错的。

2025-01-20 09:59:58 2517 3

原创 MangaNinjia,一键线稿生成,线稿上色(WIN/MAC)

分享一个AI图片处理的项目,MangaNinjia,该项目可以实现一键提取线稿图、基于参考图的线稿上色,自动将参考图与线稿对齐确保上色的一致性,并且还能通过点控制来完成更复杂的上色。项目大致的界面该项目目前有三个功能:线稿提取、线稿上色、精确线稿上色。

2025-01-18 16:34:15 621

原创 关于不同平台微信多开的解决方案(WIN/MAC/IOS/Andriod)

日常生活跟工作中需要用到多开微信,本次分享下在不同平台上解决微信多开的方法。这些方法我都用了超过1年以上,都比较稳定。中间遇到的一些问题我也有说明,包括每个方法的优缺点,每个平台的操作等。先说下我自己体验下来的结论:从操作复杂程度上来看:win

2025-01-16 15:18:08 2357

原创 StableDiffusionWebUI本地部署指南(WIN)

踩坑记录

2025-01-03 19:12:05 966

原创 微信小程序xr-frame透明视频实现

在开发AR小程序的时候需要实现用到透明视频效果。这里使用MP4格式的视频。它的左侧为视频的rgb通道信息,右侧为动画alpha通道信息,左右两侧动画同步播放。

2024-12-20 16:09:34 1324

原创 TRELLIS,一键生成3D模型,图像转3D,微软开源

大家好!今天给大家分享微软最近开源的一个3D模型生成项目——TRELLIS。简单来说就是输入一张图片,它就能自动帮你生成3D模型。这与之前分享的TripoSR项目类似,但是精度和贴图细节比TripoSR要高很多。

2024-12-19 18:18:12 6471 5

原创 EchoMimicV2数字人1216更新,新增手势对齐,自定义姿态

EchoMimicV2 于12月16日发布了代码更新,那我也赶紧来学习一波。本次更新增加了"手势对齐"和"自定义姿态"相关逻辑。鉴于我之前的版本已经实现了自定义姿态部分,我将把新增的对齐逻辑整合进去。

2024-12-18 17:58:16 744

原创 FishSpeech1.5,语音克隆,TTS,多语言,零样本推理(WIN/MAC)

语音克隆项目FishSpeech1.5更新咯~类似之前我分享的例如F5-TTS、MaskGCT等声音克隆项目,FishSpeech只需要5-10秒的语音样本,就能高度还原一个人的声音特征,而且支持中英日韩等多种语言互换。

2024-12-12 20:31:09 1876 4

原创 PDFMathTranslate,PDF多语言翻译,批量处理,学术论文,双语对照(WIN/MAC)

分享一个非常实用的PDF文档翻译项目——PDFMathTranslate。作为一个经常逛GitHub的开发者,我总喜欢翻看各种项目附带的论文,虽然大多时候是瞎研究,但却乐在其中。该项目能够完美保留公式、图表、目录和注释,对于需要阅读外文文献的同学来说绝对是一个利器!(外语好的当我没说哈!先来看看效果,这是我用该项目的论文进行翻译的结果。论文链接效果非常不错,当然你不仅可以用它翻译论文,任何PDF内容都支持。只支持PDF,如果是word等其他格式的,需要转成PDF格式来进行处理。

2024-12-11 08:50:16 2201 3

原创 FacePoke,自定义脸部表情,五官控制,表情包制作

你可以用FacePoke制作各种"鬼畜"表情!

2024-12-04 09:15:00 652

原创 EchoMimicV2数字人版本,自定义姿态,图片转数字人,音频驱动口型

哈喽!EchoMimic更新咯,本次EchoMimicV2版本增加了数字人功能,即输入一张图片、一段音频、一段姿势即可生成一段数字人视频。如果第一次了解这个项目的朋友可以看下往期文章,看下之前的V1版本简单吐槽下,在我刚部署项目的时候,官方还没推出gradio界面的代码,于是着手开始写一套,等我写完了,测试完了…GitHub上又有gradio相关的代码了…真的是太速度了!吐血…不过没关系,也算同步进行了…我在使用的时候也发现了这个版本的一些问题,并做了一些改动,在下面有讲到。

2024-11-23 20:21:40 2315 1

原创 F5-TTS,轻量级语音克隆,长文本生成,语速控制,多风格语音合成,零样本语音生成(WIN/MAC)

哈喽,分享一个还不错的音频项目——F5-TTS。该项目支持跨语言语音克隆(比如用英语说话人的声音说中文)、语速控制、零样本语音生成(不需要针对新说话人重新训练)、多种语音类型合成、长文本语音生成等功能。该项目一共分四个部分:TTS、多风格语音合成、语音聊天、训练/微调。(由于篇幅原因,这里只讲前三个,大家对训练和微调感兴趣的话,我会考虑放在后面进行讲解。

2024-11-07 09:30:00 3342 1

原创 UnityAssetsBundle字体优化解决方案

Unity开发某个项目,打包后的apk包体已经高达1.25G了,这是非常离谱的。为了不影响用户体验,需要将apk包体缩小。因为项目本身不包含很多模型以及其他大型资源,排除法将AB包删除,发现app本身就100多M。

2024-11-04 11:34:40 861

原创 Comfyui-Flux写实人像摄影风格探索

在一些小伙伴的建议下,我最近开始着手整理ComfyUI的相关内容。其实之前就一直在关注这个工具,但由于工作繁忙,一直没能抽出时间去总结。与SD webui不同的是,comfyui有着极高的自由度和灵活性,支持高度的定制化和工作流复用,同时对系统配置的要求较低,并且能够加快原始图像的生成速度。然而,由于它拥有众多的插件节点,以及较为复杂的操作流程,学习起来相对困难。另一方面,WebUI 特点是拥有固定的操作界面,使得其易于学习和快速上手。经过一年多的发展,它已经建立了一个成熟且稳定的开源生态系统。

2024-11-02 10:03:35 1017

原创 MaskGCT,零样本语音克隆,TTS语音合成,多语言支持(WIN/MAC)

今天给大家分享一个近期比较火热的语音项目——MaskGCT,这是一个完全非自回归的TTS模型,无需文本和语音监督之间的显式对齐信息,也无需音素级别的时长预测。近期的大规模文本转语音(TTS)系统通常分为自回归和非自回归两类系统。自回归系统以隐式方式建模时长,但在稳健性方面存在一些缺陷,且缺乏时长可控性。非自回归系统在训练过程中需要文本和语音之间的显式对齐信息,并预测语言单元(如音素)的时长,这可能会影响其自然度。

2024-10-31 13:07:48 1739 8

原创 RVC声音克隆,AI翻唱,音频处理,批量处理(WIN/MAC)

RVC声音克隆,AI翻唱,音频处理,批量处理

2024-10-28 10:03:04 3346 1

原创 GLM-4-Voice上手体验,端到端语音模型,语音合成,情感控制,语速控制

GLM-4-Voice上手体验

2024-10-26 17:21:25 2073 2

原创 UnityAPK反编译基础修改,C#反编译

几年前做了一个项目是VR单机的,无需联网。最近接到需求,需要修改其中的版本号,版本号当时写到UI界面上了,没做版本管理。再加上之前管理比较混乱导致最终版本的源码丢了,现在手头的工程里跟最终版本有点出入。那么现在手里就一个apk安装包,如何修改其中的版本号?想到之前有用到反编译的方式去查看源码,那时没总结流程,借此次机会总结下,防止后面遗忘。

2024-10-16 22:17:06 2492

原创 Linly-Dubbing,一键视频多语言AI配音,视频翻译,字幕生成,人声分离,自动下载视频(WIN/MAC)

Linly-Dubbing本地部署问题总结以及整合包分享

2024-09-02 09:44:22 2518 3

原创 LLVM ERROR: Symbol not found: __svml_cosf8_ha问题解决

Symbol not found: __svml_cosf8_ha问题解决

2024-08-29 16:20:07 3116 4

原创 LivePortraitV3,支持图像驱动和区域控制,更精确的人像控制(WIN,MAC)

又又又又又又更新了!

2024-08-29 13:20:10 1478

原创 GPT-SovitsV2,支持多语种,多音字优化,更好的音色,ZeroShot(WIN/MAC)

GPTSOVITSv2版本

2024-08-26 12:49:33 2864 1

原创 ImageMagick MacOS安装问题

ImageMagick MacOS安装问题解决以及思路

2024-08-19 10:05:32 778

原创 FunClip,音视频识别,自动化剪辑,文本校对,智能纠错,导出SRT

一个练手的项目,简单的增加了校对功能。

2024-08-19 09:59:47 3303

原创 MimicBrush,图像编辑,纹理迁移,xformers加速,MPS支持(WIN、MAC)

一键图像编辑/迁移

2024-08-09 14:10:01 520

原创 EasyAnimateV3,文生视频,图生视频,长视频生成

大家好啊!前段时间大火的可灵相信大家有了解过,当时需要申请内测资格,我苦苦等了2周才用上,体验后效果确实非常惊艳。不幸前段时间可灵收费了....这......于是我又发现了一个类似的项目——EasyAnimate。EasyAnimate是基于Transformer架构的文生/图生视频的项目,该项目目前已经是v3版本啦,支持生成不同分辨率尺寸,不同帧率的视频,新增了长视频模式。我也在网上看到有很多说这个是可灵的平替,那至于说效果到底有没有可灵那么好,是不是平替,大家可以自己体验下。

2024-08-02 21:58:52 1187

原创 EchoMimicV2,Audio Driven加速模型,推理速度大幅提升

EchoMimicV2如何修改acc加速,V2版本整合包已发布。

2024-07-28 16:29:43 2011

原创 LivePortrait优化版,表情迁移,数字人,视频驱动视频v2v(WIN,MAC)

由快手、中国科学技术大学和复旦大学联合团队开发的表情迁移项目——LivePortrait。

2024-07-27 12:27:59 1455

原创 一键音频驱动图片数字人项目——EchoMimic(附整合包)

阿里出品数字人相关项目——EchoMimic。整合包已发布!

2024-07-24 07:56:12 7349 6

原创 Paints-UNDO优化版,模拟从0-1的绘画过程

哟呼!好久不见。本期给大家介绍一个图片转视频的项目。比较有意思的是它可以生成某张图像的从0到最终的绘画过程。例如上传一张图像。就可以生成该图像从白纸、线稿、填色、最终的图像这个过程。还可以提取关键帧。

2024-07-21 18:52:09 1302

原创 PS使用批量脚本生成海报实践

设计朋友有需求做一批邀请函,有几十个人名,需要把人名加到海报中,PS里一个一个添加人名很麻烦,于是来问我有没有什么办法能够批量去添加。希望把人名加到红框区域内尝试用ps的脚本进行处理.jsx 脚本是Adobe Photoshop的扩展脚本文件格式,它允许用户通过编写JavaScript代码来自动化Photoshop的任务和功能。这些脚本可以执行各种操作,比如打开和编辑图像、应用滤镜、创建新的图层或文本对象、导出文件等。

2024-06-24 14:10:24 958

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除