什么是：马尔可夫博弈

最新推荐文章于 2025-05-27 09:12:29 发布

ZhangJiQun&MXP

最新推荐文章于 2025-05-27 09:12:29 发布

阅读量404

点赞数 1

CC 4.0 BY-SA版权

分类专栏：教学 2021 论文 2024大模型以及算力文章标签：人工智能 python 数据库后端开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38998213/article/details/146102530

教学同时被 3 个专栏收录

1758 篇文章 ¥199.90 ¥299.90

订阅专栏

2024大模型以及算力

1157 篇文章 ¥199.90 ¥299.90

订阅专栏

835 篇文章 ¥199.90 ¥299.90

订阅专栏

什么是：马尔可夫博弈

马尔可夫博弈（Markov Game），也被称为随机博弈（Stochastic Game），是马尔可夫决策过程（MDP）在多智能体环境下的扩展。它描述了多个智能体在一个环境中相互作用的动态过程，每个智能体的决策不仅取决于当前环境状态，还会影响其他智能体的决策以及环境的后续状态。

马尔可夫博弈由以下几个关键要素组成：

智能体集合：包含多个智能体，每个智能体都有自己的目标和决策能力。
状态空间：环境所有可能的状态集合。
动作空间：每个智能体在每个状态下可以采取的动作集合。
转移概率：描述在当前状态下，所有智能体采取各自动作后，环境转移到下一个状态的概率。
奖励函数：每个智能体在每个状态下采取动作后所获得的奖励，奖励通常与状态、动作以及其他智能体的行为有关。

原理举例：多机器人足球比赛

场景描述

假设有两支机器人足球队进行比赛，每支队伍有多个机器人（智能体）。比赛场地是一个有限的区域，球的位置和机器人的位置构成了环境的状态。每个机器人可以采取不同的动作，如移动、传球、射门等。

要素分析

智能体集合：两支球队的所有机器人构成了智能体集合。每个机器人都有自己的任务和目标，

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ZhangJiQun&MXP 等到80岁回首依旧年轻

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。