I204 Inteligencia Artificial
Examen de Práctica
“Practice does not make perfect, perfect practice makes perfect”
[1] UnA estrellita para este ejercicio:
Indicar cuáles de las siguientes opciones son correctas:
a) El código de A* puede usarse para UCS (Uniform Cost Search)
b) A* es óptimo para cualquier heurística
c) A* nunca visita más nodos que DFS
d) El máximo entre dos heurísticas admisibles es admisible
e) La heurística h(s)=1 para los nodos que no son el objetivo es admisible.
[2] Dado el siguiente árbol correspondiente a un juego de dos jugadores en donde el triángulo
hacia arriba representa a MAX y el triángulo hacia abajo representa a min. Las ramas tachadas
son las que van a ser podadas por alfa-beta-pruning.
Pedimos indicar qué valores pueden tomar A y B para que el arbol sea valido:
A1 <= A <= A2
B1 <= B <= B2
a) Indicar los valores para A1, A2, B1 y B2.
b) Supongamos el valor máximo posible para el nodo B es decir B2. Luego de la poda
encontramos que los valores en los subárboles izquierdo y central tienen el mismo valor
de minimax y es 1 más que el valor del subárbol derecho. ¿Cuál es entonces el valor de
C?
c) Para que valores de D y E elegir la acción z2 nos garantiza el mismo resultado que z1?
D1 <= D <= D2, E1 <= E <= E2. Indicar D1,D2,E1 y E2.
[3] Value-Iteration
Indicar V o F:
a) Si la cantidad de acciones es menor que la cantidad de estados de un MDP entonces
una iteración de value-iteration es más rápida que una iteración de policy-iteration
resolviendo el sistema lineal de ecuaciones correspondiente.
b) Para cualquier MDP cambiar el factor de descuento gamma no cambia la política óptima
del MDP.
[4] Considerar el siguiente caso de GridWorld. En los estados con EXIT el agente puede tomar
la acción adicional “EXIT” y recibir el reward indicado terminando el juego. Las transiciones son
determinísticas es decir que al movernos a la derecha el agente siempre se mueve a la
derecha. Para los casos de paredes o celdas en negro si el agente elige moverse alli se queda
en la celda original. Todos los estados empiezan con valor 0 y el factor de descuento gamma es
0.5.
a) ¿Cuáles son los valores óptimos de A y B?
b) ¿Luego de cuantas iteraciones vamos a tener el valor óptimo para todos los estados?
c) Suponga que queremos rediseñar la función de reward para cuál de las siguientes
funciones la política óptima no cambia? R(s,a,s’) es la función original.
i) 10*R(s,a,s’)
ii) 1 + R(s,a,s’)
iii) R(s,a,s’)*R(s,a,s’)
iv) R(s,a,s’)=-1
v) Ninguna
[5] Agregamos ahora un nuevo estado con acción exit y reward igual a X.
a) ¿Para que valores de X esta garantizado que nuestra política óptima se mueve en C
hacia la izquierda? X1 <= X <= X2. Pedimos X1 y X2.
b) Para que valores de X value-iteration converge en la cantidad mínima de iteraciones a
los valores óptimos para todos los estados? X1 <= X <= X2. Pedimos X1 y X2.
c) ¿Cuál es la cantidad mínima de iteraciones en las que todos los valores convergen al
óptimo?
X1=50, X2=INF
X1=50, X2=200
C=4 iteraciones
[6] Tenemos un MDP con tres estados A,B,C y solo dos acciones (LEFT y RIGHT). Suponemos
que empezamos con una cierta política P1. El factor de descuento gamma es 1. Luego de
algunas iteraciones obtenemos los siguientes samples:
s a s’ R
A RIGHT B 2
C LEFT B 2
B RIGHT C -2
A RIGHT B 4
Suponiendo todos los Q values inicializados en 0 y con un factor de aprendizaje alfa=0.5
Luego de ejecutar Q-Learning para los samples indicados indique.
a) Q(A,RIGHT) =
b) Q(B,RIGHT) =
Luego de ejecutar Q-Learning actualizamos la política P1 a P2. Indicar
a) P2(A)
b) P2(B)
Estimar en base a los ejemplos obtenidos la función de transiciòn T(s,a,s’) y de Reward
R(s,a,s’). Indicar:
a) T(A,RIGHT,B)
b) T(B,RIGHT,A)
c) T(B,LEFT,A)
d) R(A,RIGHT,B)
e) R(B,RIGHT,A)
f) R(B,LEFT,A)
[7] Para MDPs en general:
¿Cuál de los siguientes métodos nos da la información suficiente para encontrar la polìtica
óptima de un MDP?
a) Explorar hasta aprender T(s,a,s’) y R(s,a,s’).
b) Direct-Evaluation para estimar V(s).
c) TD-Learning para estimar V(s).
d) Q-Learning para estimar Q(s,a)
[8] Suponiendo suficientes episodios y que cualquier estado es alcanzable desde cualquier
otro, ¿cuál de las siguientes formas de exploración garantiza que Q-Learning encuentre los
valores óptimos para cada estado?
a) Explorar de forma aleatoria.
b) Explorar de forma greedy (tomar siempre la mejor acción disponible)
c) Explorar usando epsilon-greedy.
d) Explorar en base a una política óptima fija.
[9] En el juego de Grafoku tenemos grafos formados por dos tipos de nodos:
Los círculos representan variables, es decir casilleros que tenemos que llenar con números.
Los rectángulos representan el resultado que deben sumar sus nodos vecinos.
Es decir que en este caso A+B=4 y B+C=3.
Vamos a tratar a Grafoku como un CSP. Y supongamos que los únicos valores posibles para
las variables son 1,2 y 3.
a) ¿Cuántas soluciones tiene el Grafoku ejemplo?
b) ¿Cuál es la complejidad de resolver un Grafoku de n variables en línea como el del
ejemplo usando backtracking? (d es la cantidad de valores posibles para cada variable)
i) O(nd3)
ii) O(n2d2)
iii) O(nd2)
iv) O(dn)
[10] Tenemos el siguiente algoritmo para resolver Grafokus: Para cada posible valor de la
primera variable X1 asignar la variable a dicho valor y luego usar arc-consistency hasta que
encontremos una solución o no haya más valores posibles para X1. Indicar cuáles de las
siguientes afirmaciones son ciertas:
a) El algoritmo detecta correctamente cualquier Grafoku que no puede resolverse.
b) El algoritmo resuelve correctamente cualquier Grafoku.
c) Algunas veces el algoritmo termina sin encontrar la solución aunque eista.
d) El algoritmo es O(nd3)