自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

嘟嘟的博客

原创 MatAnyone本地部署,视频分割处理,绿幕抠像(WIN/MAC)

MatAnyone视频抠图工具使用指南：支持MAC和Windows系统摘要：本文介绍了MatAnyone视频抠图工具的使用方法，这是一款基于SAM2的AI工具，能够一键抠出视频中的主体并输出绿幕视频或AlphaMask视频。文章详细讲解了手动部署流程，包括代码克隆、环境配置、依赖安装等步骤，特别是针对MAC系统的特殊配置说明。使用教程部分展示了从视频上传到最终输出的完整操作流程。项目对硬件配置要求较高，Windows需10G显存，MAC需要M1/M2/M3/M4芯片和10G以上内存。文末还提供了整合包下载

2025-06-11 14:30:07 844

原创 SAM2Long本地部署,视频分割处理,绿幕抠像,超长视频支持

摘要：SAM2Long视频分割工具部署指南SAM2Long是一款优化版视频分割工具，能高效抠出视频主体并输出绿幕/透明背景视频。文章提供了两种部署方式：源码部署和一键包安装。源码部署需先安装PyTorch环境（pip install torch等），再通过pip安装本地SAM2代码库。关键步骤包括下载模型检查点，作者提供了Linux/macOS的shell脚本和Windows的bat脚本，用于自动下载4个不同版本的SAM2.1模型文件（tiny/small/base_plus/large）。脚本支持wge

2025-06-09 14:48:41 1018

原创 ParakeetTDT0.6BV2,语音识别ASR,极速转录, 高精度英文转录,标点支持(附整合包)

分享一个英伟达开源的高精度AI语音转文字神器——Parakeet-tdt-0.6b-v2！这款600亿参数的语音识别模型能实时将英文音频转化为带标点、大小写的文本，自动预测逐词时间戳，甚至能精准转录数字、歌词等复杂内容。

2025-05-28 14:39:06 424

原创 CustomSVG,一键生成SVG,文字秒变矢量图(WIN/MAC)

CustomSVG是一款AI矢量图生成工具，支持将输入的文字快速转换为可编辑的矢量图，并智能匹配水彩、漫画、极简等多种风格。

2025-05-23 18:45:00 846

原创基于DeepSeek-R1实现本地/API知识库，并接入微信BOT

在上一篇，我们一起实现了本地部署DeepSeek-R1并接入了微信机器人，让它能跟我们聊天，今天，我要跟大家分享个更有意思的玩法：如何给咱们的 AI 助手喂点干货，让它变身成一个真正懂行的专业顾问！接下来我会手把手带大家完成整个知识库搭建过程，包括环境配置、知识库部署、上传资料，还有一些细节调优的小技巧。最后我们再把这个"充满知识"的AI接入微信机器人，打造一个真正懂你、懂行业的智能小助手！

2025-02-09 12:02:41 3471 22

原创 Janus-Pro,DeepSeek开源多模态大模型(WIN/MAC)

DeepSeek开源的多模态大模型，简单点说就是一个可以理解图片内容和生成图片的模型。目前有三个版本的模型，分别是：Janus、JanusFlow、Janus-Pro。看到这里，可能有小伙伴会觉得这个项目的应用场景比较有限。但据我了解，已经有小伙伴利用Janus的强大图文理解能力，将工程图纸、技术文档等PDF资料制作成智能知识库。这是他发我的截图：更棒的是，如果你看过我上一篇关于微信BOT的文章，完全可以把Janus接入进去，让你的机器人也具备看图说话、生成图片的能力！

2025-02-06 22:54:17 1538

原创【从零开始】基于本地部署DeepSeek-R1实现微信智能聊天机器人

新年好！给大家拜年了！最近，我的朋友圈被DeepSeek相关的消息“刷屏”了！相信大家也都听说了咱们国产开源大模型——DeepSeek。网上关于如何本地部署DeepSeek的教程已经不少了，今天咱们就来点不一样的，结合实际案例，手把手带你玩转DeepSeek-R1，看看它到底有多强大！

2025-01-29 13:46:29 31669 74

原创宝塔UDP服务器部署记录,unityClient,pythonServer

最近项目接到新需求，需要用Unity 客户端（发送端）控制另一台 Unity 客户端（接收端），中间用UDP服务器做数据中转。

2025-01-21 10:41:22 698

原创信息: 用提供的模式无法找到文件。问题解决

最近遇到python项目运行就提示信息: 用提供的模式无法找到文件。的问题。虽然对程序来说没什么影响，但是强迫症的我看着很不爽。

2025-01-21 10:35:48 2479

原创 LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)

分享一个最近还不错的数字人项目——LatentSync。该项目由字节开源，上传一段音频和视频，即可生成数字人视频。我对该项目做了些更改，增加了批量和MAC版本的支持，用MAC的小伙伴再也不用遗憾了…看下我生成的效果。简单介绍下如何使用上传一段人物视频和你要生成人物说话的音频。点击处理视频等待视频生成批量模式的使用也相同，支持上传多个文件。批量模式下音频数量一定要和视频数量保持一致，如果缺少是会报错的。

2025-01-20 09:59:58 2517 3

原创 MangaNinjia,一键线稿生成,线稿上色(WIN/MAC)

分享一个AI图片处理的项目，MangaNinjia，该项目可以实现一键提取线稿图、基于参考图的线稿上色，自动将参考图与线稿对齐确保上色的一致性，并且还能通过点控制来完成更复杂的上色。项目大致的界面该项目目前有三个功能:线稿提取、线稿上色、精确线稿上色。

2025-01-18 16:34:15 621

原创关于不同平台微信多开的解决方案(WIN/MAC/IOS/Andriod)

日常生活跟工作中需要用到多开微信，本次分享下在不同平台上解决微信多开的方法。这些方法我都用了超过1年以上，都比较稳定。中间遇到的一些问题我也有说明，包括每个方法的优缺点，每个平台的操作等。先说下我自己体验下来的结论：从操作复杂程度上来看：win

2025-01-16 15:18:08 2357

原创 StableDiffusionWebUI本地部署指南(WIN)

踩坑记录

2025-01-03 19:12:05 966

原创微信小程序xr-frame透明视频实现

在开发AR小程序的时候需要实现用到透明视频效果。这里使用MP4格式的视频。它的左侧为视频的rgb通道信息，右侧为动画alpha通道信息，左右两侧动画同步播放。

2024-12-20 16:09:34 1324

原创 TRELLIS,一键生成3D模型,图像转3D,微软开源

大家好！今天给大家分享微软最近开源的一个3D模型生成项目——TRELLIS。简单来说就是输入一张图片，它就能自动帮你生成3D模型。这与之前分享的TripoSR项目类似，但是精度和贴图细节比TripoSR要高很多。

2024-12-19 18:18:12 6471 5

原创 EchoMimicV2数字人1216更新,新增手势对齐,自定义姿态

EchoMimicV2 于12月16日发布了代码更新，那我也赶紧来学习一波。本次更新增加了"手势对齐"和"自定义姿态"相关逻辑。鉴于我之前的版本已经实现了自定义姿态部分，我将把新增的对齐逻辑整合进去。

2024-12-18 17:58:16 744

原创 FishSpeech1.5,语音克隆,TTS,多语言,零样本推理(WIN/MAC)

语音克隆项目FishSpeech1.5更新咯~类似之前我分享的例如F5-TTS、MaskGCT等声音克隆项目，FishSpeech只需要5-10秒的语音样本，就能高度还原一个人的声音特征，而且支持中英日韩等多种语言互换。

2024-12-12 20:31:09 1876 4

原创 PDFMathTranslate,PDF多语言翻译,批量处理,学术论文,双语对照（WIN/MAC）

分享一个非常实用的PDF文档翻译项目——PDFMathTranslate。作为一个经常逛GitHub的开发者，我总喜欢翻看各种项目附带的论文，虽然大多时候是瞎研究，但却乐在其中。该项目能够完美保留公式、图表、目录和注释，对于需要阅读外文文献的同学来说绝对是一个利器！(外语好的当我没说哈！先来看看效果，这是我用该项目的论文进行翻译的结果。论文链接效果非常不错，当然你不仅可以用它翻译论文，任何PDF内容都支持。只支持PDF，如果是word等其他格式的，需要转成PDF格式来进行处理。

2024-12-11 08:50:16 2201 3

原创 FacePoke,自定义脸部表情,五官控制,表情包制作

你可以用FacePoke制作各种"鬼畜"表情！

2024-12-04 09:15:00 652

原创 EchoMimicV2数字人版本,自定义姿态,图片转数字人,音频驱动口型

哈喽！EchoMimic更新咯，本次EchoMimicV2版本增加了数字人功能，即输入一张图片、一段音频、一段姿势即可生成一段数字人视频。如果第一次了解这个项目的朋友可以看下往期文章，看下之前的V1版本简单吐槽下，在我刚部署项目的时候,官方还没推出gradio界面的代码，于是着手开始写一套，等我写完了，测试完了…GitHub上又有gradio相关的代码了…真的是太速度了！吐血…不过没关系，也算同步进行了…我在使用的时候也发现了这个版本的一些问题，并做了一些改动，在下面有讲到。

2024-11-23 20:21:40 2315 1

原创 F5-TTS,轻量级语音克隆,长文本生成,语速控制,多风格语音合成,零样本语音生成(WIN/MAC)

哈喽，分享一个还不错的音频项目——F5-TTS。该项目支持跨语言语音克隆(比如用英语说话人的声音说中文)、语速控制、零样本语音生成(不需要针对新说话人重新训练)、多种语音类型合成、长文本语音生成等功能。该项目一共分四个部分：TTS、多风格语音合成、语音聊天、训练/微调。(由于篇幅原因，这里只讲前三个，大家对训练和微调感兴趣的话，我会考虑放在后面进行讲解。

2024-11-07 09:30:00 3342 1

原创 UnityAssetsBundle字体优化解决方案

Unity开发某个项目，打包后的apk包体已经高达1.25G了，这是非常离谱的。为了不影响用户体验，需要将apk包体缩小。因为项目本身不包含很多模型以及其他大型资源，排除法将AB包删除，发现app本身就100多M。

2024-11-04 11:34:40 861

原创 Comfyui-Flux写实人像摄影风格探索

在一些小伙伴的建议下，我最近开始着手整理ComfyUI的相关内容。其实之前就一直在关注这个工具，但由于工作繁忙，一直没能抽出时间去总结。与SD webui不同的是,comfyui有着极高的自由度和灵活性，支持高度的定制化和工作流复用，同时对系统配置的要求较低，并且能够加快原始图像的生成速度。然而，由于它拥有众多的插件节点，以及较为复杂的操作流程，学习起来相对困难。另一方面，WebUI 特点是拥有固定的操作界面，使得其易于学习和快速上手。经过一年多的发展，它已经建立了一个成熟且稳定的开源生态系统。

2024-11-02 10:03:35 1017

原创 MaskGCT，零样本语音克隆，TTS语音合成，多语言支持(WIN/MAC)

今天给大家分享一个近期比较火热的语音项目——MaskGCT，这是一个完全非自回归的TTS模型，无需文本和语音监督之间的显式对齐信息，也无需音素级别的时长预测。近期的大规模文本转语音(TTS)系统通常分为自回归和非自回归两类系统。自回归系统以隐式方式建模时长，但在稳健性方面存在一些缺陷，且缺乏时长可控性。非自回归系统在训练过程中需要文本和语音之间的显式对齐信息，并预测语言单元(如音素)的时长，这可能会影响其自然度。

2024-10-31 13:07:48 1739 8

原创 RVC声音克隆，AI翻唱，音频处理，批量处理(WIN/MAC)

RVC声音克隆，AI翻唱，音频处理，批量处理

2024-10-28 10:03:04 3346 1

原创 GLM-4-Voice上手体验，端到端语音模型，语音合成，情感控制，语速控制

GLM-4-Voice上手体验

2024-10-26 17:21:25 2073 2

原创 UnityAPK反编译基础修改,C#反编译

几年前做了一个项目是VR单机的，无需联网。最近接到需求，需要修改其中的版本号，版本号当时写到UI界面上了，没做版本管理。再加上之前管理比较混乱导致最终版本的源码丢了，现在手头的工程里跟最终版本有点出入。那么现在手里就一个apk安装包，如何修改其中的版本号？想到之前有用到反编译的方式去查看源码，那时没总结流程，借此次机会总结下，防止后面遗忘。

2024-10-16 22:17:06 2492

原创 Linly-Dubbing,一键视频多语言AI配音,视频翻译,字幕生成,人声分离,自动下载视频(WIN/MAC)

Linly-Dubbing本地部署问题总结以及整合包分享

2024-09-02 09:44:22 2518 3

原创 LLVM ERROR: Symbol not found: __svml_cosf8_ha问题解决

Symbol not found: __svml_cosf8_ha问题解决

2024-08-29 16:20:07 3116 4

原创 LivePortraitV3，支持图像驱动和区域控制，更精确的人像控制（WIN，MAC）

又又又又又又更新了！

2024-08-29 13:20:10 1478

原创 GPT-SovitsV2,支持多语种,多音字优化,更好的音色,ZeroShot（WIN/MAC）

GPTSOVITSv2版本

2024-08-26 12:49:33 2864 1

原创 ImageMagick MacOS安装问题

ImageMagick MacOS安装问题解决以及思路

2024-08-19 10:05:32 778

原创 FunClip,音视频识别,自动化剪辑,文本校对,智能纠错,导出SRT

一个练手的项目，简单的增加了校对功能。

2024-08-19 09:59:47 3303

原创 MimicBrush,图像编辑,纹理迁移,xformers加速,MPS支持(WIN、MAC)

一键图像编辑/迁移

2024-08-09 14:10:01 520

原创 EasyAnimateV3,文生视频,图生视频,长视频生成

大家好啊！前段时间大火的可灵相信大家有了解过，当时需要申请内测资格，我苦苦等了2周才用上，体验后效果确实非常惊艳。不幸前段时间可灵收费了....这......于是我又发现了一个类似的项目——EasyAnimate。EasyAnimate是基于Transformer架构的文生/图生视频的项目，该项目目前已经是v3版本啦，支持生成不同分辨率尺寸，不同帧率的视频，新增了长视频模式。我也在网上看到有很多说这个是可灵的平替，那至于说效果到底有没有可灵那么好，是不是平替，大家可以自己体验下。

2024-08-02 21:58:52 1187

原创 EchoMimicV2,Audio Driven加速模型，推理速度大幅提升

EchoMimicV2如何修改acc加速，V2版本整合包已发布。

2024-07-28 16:29:43 2011

原创 LivePortrait优化版，表情迁移，数字人，视频驱动视频v2v（WIN，MAC）

由快手、中国科学技术大学和复旦大学联合团队开发的表情迁移项目——LivePortrait。

2024-07-27 12:27:59 1455

原创一键音频驱动图片数字人项目——EchoMimic(附整合包)

阿里出品数字人相关项目——EchoMimic。整合包已发布！

2024-07-24 07:56:12 7349 6

原创 Paints-UNDO优化版,模拟从0-1的绘画过程

哟呼！好久不见。本期给大家介绍一个图片转视频的项目。比较有意思的是它可以生成某张图像的从0到最终的绘画过程。例如上传一张图像。就可以生成该图像从白纸、线稿、填色、最终的图像这个过程。还可以提取关键帧。

2024-07-21 18:52:09 1302

原创 PS使用批量脚本生成海报实践

设计朋友有需求做一批邀请函，有几十个人名，需要把人名加到海报中，PS里一个一个添加人名很麻烦，于是来问我有没有什么办法能够批量去添加。希望把人名加到红框区域内尝试用ps的脚本进行处理.jsx 脚本是Adobe Photoshop的扩展脚本文件格式，它允许用户通过编写JavaScript代码来自动化Photoshop的任务和功能。这些脚本可以执行各种操作，比如打开和编辑图像、应用滤镜、创建新的图层或文本对象、导出文件等。

2024-06-24 14:10:24 958

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除