StyleCLIP global direction详解

normol

于 2023-10-19 17:19:08 发布

阅读量584

点赞数 2

CC 4.0 BY-SA版权

分类专栏：计算机视觉文章标签：人工智能图像编辑多模态生成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/normol/article/details/133926632

StyleCLIP中global direction的实现原理

前言
第一阶段:预计算
第二阶段:计算与文本的对应关系

前言

基于的假设：
CLIP中虽然图像特征与文本特征不存在一一对应的关系，但相同的语义下，图像特征的变化方向与文本特征的变化方向是一致的，如下图右侧的man,woman所示
核心观点：
可以将stylegan中隐空间的语义变化方向投影至CLIP空间（下图左下角），这样若命令为man->woman,则可以首先计算CLIP中文本特征对应的变化方向 $\Delta t$ ，再计算该 $\Delta t$ 与CLIP中间中所有图像变化方向 $\Delta i$ 的共线程度(即变化方向一致)，取出共线程度大的 $\Delta i$ ，可以反推是stylegan中哪些维度改变得到的该变化。
实际应用时，如下图中的黑框所示，找到文本变化与stylegan隐空间特征的对应后，就能在逆向化的隐向量 $s$ 上施加对应的改变，得到与文本语义一致的图像编辑结果。
在这里插入图片描述

第一阶段:预计算

这一阶段的核心思想：将stylegan中隐空间每个维度数值变化对应的图像语义变化方向投影至CLIP空间。
主要

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。