在古老的迷宫深处,回荡着不只是探索者的脚步声,还有智能体之间交流的低语。这些低语并非人类的语言,而是一种新兴的沟通方式,它诞生于智能体彼此学习、共同完成任务的过程中。如同传说中指引英雄的精灵低语,这种新兴的语言帮助智能体们穿越迷宫,走向胜利的终点。
🗺️智能体与迷宫:一场关于合作的冒险
神经系统不仅进化出通过内部表征解决环境挑战的能力,还在社会约束下进化出将这些表征传递给同伴的能力。为了理解这些内部表征的结构以及它们如何被优化以在个体之间传递相关信息,我们基于先前的师生沟通协议,分析了个体和共享抽象的形成及其对任务绩效的影响。
想象一下,一个“教师”智能体和一个“学生”智能体被置于一个网格状的迷宫中(图1)。教师拥有迷宫的完整地图,并通过强化学习(RL)掌握了走出迷宫的最佳策略。它的目标是生成一个状态-动作值函数或Q矩阵(Q(s, a)),其中包含状态-动作对的预期回报。Q(s,a)=Rs,a+γBellmanmaxa′Q(s′,a′)Q(s, a) = R_{s, a} + \gamma_{Bellman} \max_{a'} Q(s', a')Q(