美图最近上线了自己的AI Agent,名字为RoboNeo;体验上对比传统的app,个人感觉让人有新的兴趣想尝试一下,结果如下:
这个修图的Agent,从本质上,还是基于一个图像分析的多模态大模型,通过对输入用户图的分析,来调用对应的图像处理算法对图像进行修图,与上一篇文章介绍的方法类似。
今天,我们继续这个话题,介绍一个基于聊天交互的修图Agent。
需求定义
基于聊天交互的修图Agent
我们定义需求如下:
-
用户输入自然语言需求(如“我想美白、瘦脸”)
-
聊天机器人自动判断应使用哪些美颜参数和对应数值,输出:
-
模拟的美颜意图说明(自然语言)
-
对应的 API 参数 JSON(字典)
-
-
根据API参数调用修图算法执行修图处理,给出最终修图结果
算法结构分解
第一步:意图抽取与解释
ChatGPT 接收到用户一句话,例如:
“这张照片里痘痘很多,皮肤很差,法令纹太明显了。”
它自然可以理解