注意:本文所用测试图像,均为AIGC生成
前面介绍了字节的Intelligent Photo Retouching Agent美颜Agent技术,目前该技术已经放出了测试DEMO:https://huggingface.co/spaces/LYL1015/JarvisArt-Preview
大家可以自行尝试,这个技术代表的是一种智能化美颜方法,周末本人进行了一些尝试和验证,本文将从个人角度来探讨一下在影楼修图领域其他的智能化方法。
从个人的理解,目前个人视角可以预测到的几种智能修图方向如下:
1.类似Intelligent Photo Retouching Agent的专业修图模型;
优点:
可处理各类分辨率图像,适合影楼修图;
可以跟修图工具深度绑定,比如Photoshop,像素蛋糕等,进而提升专业深度,也方便产品构建强有力的技术壁垒;
缺点:不够灵活,效果与数据绑定紧密;
2.图像编辑大模型;
优点:可通过用户命令交互式修图(文字,语音等),且可以完成传统修图算法所不能及的功能效果,比如换衣服,换发型等等,效果自然,整体不需要过高的专业知识;
当前缺点:无法处理大图;由于是重新生成,一致性尚无法完全保证;
3.基于多模态大模型+修图算法API;
这个方案是本文所要详细介绍的一种方案。主体思路是通过多模态大模型对用户图进行美学分析,根据分析结果,调用修图算法对用户图进行修图;
优点:可处理高分辨率大图,保留了传统CV修图的各种优势,同时,借助大模型的分析能力,对传统CV的各种分析