StyleCLIP中global direction的实现原理
前言
基于的假设:
CLIP中虽然图像特征与文本特征不存在一一对应的关系,但相同的语义下,图像特征的变化方向与文本特征的变化方向是一致的,如下图右侧的man,woman所示
核心观点:
可以将stylegan中隐空间的语义变化方向投影至CLIP空间(下图左下角),这样若命令为man->woman,则可以首先计算CLIP中文本特征对应的变化方向 Δ t \Delta t Δt,再计算该 Δ t \Delta t Δt与CLIP中间中所有图像变化方向 Δ i \Delta i Δi的共线程度(即变化方向一致),取出共线程度大的 Δ i \Delta i Δi,可以反推是stylegan中哪些维度改变得到的该变化。
实际应用时,如下图中的黑框所示,找到文本变化与stylegan隐空间特征的对应后,就能在逆向化的隐向量 s s s上施加对应的改变,得到与文本语义一致的图像编辑结果。
第一阶段:预计算
这一阶段的核心思想:将stylegan中隐空间每个维度数值变化对应的图像语义变化方向投影至CLIP空间。
主要