JAVA学习-练习试用Java实现“Q-Learning：实现Q-learning算法让AI玩迷宫逃脱游戏”

最新推荐文章于 2025-08-04 22:00:33 发布

守护者170

最新推荐文章于 2025-08-04 22:00:33 发布

阅读量206

点赞数 5

CC 4.0 BY-SA版权

分类专栏： java学习文章标签： java 学习

本文链接：https://blog.csdn.net/weixin_69763181/article/details/149266083

java学习专栏收录该内容

445 篇文章

订阅专栏

问题：

java语言编辑，Q-Learning：实现Q-learning算法让AI玩迷宫逃脱游戏。

解答思路：

以下是一个简单的Java实现，演示了如何使用Q-Learning算法让AI玩迷宫逃脱游戏。在这个例子中，我们将使用一个4x4的迷宫，其中有一个起点（标记为'S'）和一个终点（标记为'E'）。迷宫中的其他位置是障碍物（标记为'#'），可以走的路径标记为'.'。

import java.util.Random;


public class QLearningMazeEscape {

    private static final int NUM_STATES = 16; // 迷宫状态的数量

    private static final int NUM_ACTIONS = 4; // 可执行动作的数量 (上、下、左、右)

    private static final double LEARNING_RATE = 0.1; // 学习率

    private static final double DISCOUNT_FACTOR = 0.95; // 折扣因子

    private static final int NUM_EPISODES = 1000; // 训练的回合数

    private static final double EPSILON = 0.1; // ε-greedy策略中的ε值


    private int[][] maze = {

        {'#', '#', '#', '#'},

        {'#', 'S', '.', '#'},

        {'#', '.', '.', '#'},

        {'#', '.', 'E', '#'}

    };


    private int state, action, reward;

    private double[][] qTable = new double[NUM_STATES][NUM_ACTIONS];


    public static void main(String[] args) {

        QLearningMazeEscape qLearningMazeEscape = new QLearningMazeEscape();

        qLearningMazeEscape.run();

    }


    public void run() {

        Random random = new Random();

        for (int episode = 0; episode < NUM_EPISODES; episode++) {

            resetState();

            while (true) {

                if (random.nextDouble() < EPSILON) {

                    action = random.nextInt(NUM_ACTIONS); // 随机选择动作

                } else {

                    action = argMax(qTable[state]); // 选择最优动作

                }

                performAction(action);

                if (isGoalState()) {

                    reward = 1;

                    break;

                }

                reward = -1; // 迷宫内移动不奖励

            }

            updateQTable();

        }


        // 运行Q-Learning得到的策略

        resetState();

        while (!isGoalState()) {

            action = argMax(qTable[state]);

            performAction(action);

            printMaze();

        }

    }


    private void resetState() {

        for (int i = 0; i < qTable.length; i++) {

            for (int j = 0; j < qTable[i].length; j++) {

                qTable[i][j] = 0;

            }

        }

        state = findState(maze[1][1]);

    }


    private int findState(int cell) {

        for (int i = 0; i < maze.length; i++) {

            for (int j = 0; j < maze[i].length; j++) {

                if (maze[i][j] == cell) {

                    return i * maze[i].length + j;

                }

            }

        }

        return -1;

    }


    private int argMax(double[] array) {

        int maxIndex = 0;

        for (int i = 1; i < array.length; i++) {

            if (array[i] > array[maxIndex]) {

                maxIndex = i;

            }

        }

        return maxIndex;

    }


    private void performAction(int action) {

        int x = state / maze[0].length;

        int y = state % maze[0].length;


        switch (action) {

            case 0: // 上

                x--;

                break;

            case 1: // 下

                x++;

                break;

            case 2: // 左

                y--;

                break;

            case 3: // 右

                y++;

                break;

        }


        if (x >= 0 && x < maze.length && y >= 0 && y < maze[0].length && maze[x][y] != '#') {

            state = x * maze[0].length + y;

        } else {

            state = x * maze[0].length + y; // 碰撞到墙壁或边界，位置不变

        }

    }


    private boolean isGoalState() {

        return maze[state / maze[0].length][state % maze[0].length] == 'E';

    }


    private void updateQTable() {

        int nextAction = argMax(qTable[state]);

        qTable[state][action] = qTable[state][action] + LEARNING_RATE * (reward + DISCOUNT_FACTOR * qTable[state][nextAction] - qTable[state][action]);

    }


    private void printMaze() {

        for (int i = 0; i < maze.length; i++) {

            for (int j = 0; j < maze[i].length; j++) {

                System.out.print(maze[i][j] + " ");

            }

            System.out.println();

        }

        System.out.println();

    }

}

在这个实现中，我们定义了一个简单的迷宫，并初始化了Q表。在每个回合中，AI根据ε-greedy策略选择动作，然后根据动作的结果更新Q表。训练完成后，我们可以运行Q-Learning得到的策略来观察AI如何通过迷宫。

需要注意，这个实现是一个简化的例子，它假设迷宫是静态的，并且没有考虑所有可能的边界条件。在实际应用中，可能需要考虑更多的因素，比如动态迷宫、不同的奖励结构、更复杂的探索策略等。

(文章为作者在学习java过程中的一些个人体会总结和借鉴，如有不当、错误的地方，请各位大佬批评指正，定当努力改正，如有侵权请联系作者删帖。)