


WHAT WE DO

Objetivos
Estudiar las bases teóricas y técnicas para comprender las aplicaciones del Aprendizaje por Refuerzo, haciendo énfasis en los Modelos de Decisión de Markov y la Programación Dinámica.
Familiarizar al alumno con aquellas aplicaciones de los Modelos de Decisión de Markov y de la Programación Dinámica fuera del contexto de Aprendizaje por Refuerzo.
Estudiar las ideas principales y analizar las situaciones cuando el Aprendizaje por Refuerzo es una técnica poderosa
Temario
1. Cadenas de Markov y métodos de muestreo
Repaso de los fundamentos de la Probabilidad
Ley de los Grandes Números y Método Monte Carlo
Definición de Cadenas de Markov y primeros ejemplos
Medidas estacionarias y Teoremas Ergódicos
Monte Carlo para Cadenas de Markov
Metropolis-Hastling
2. Procesos de Decisión de Markov
Definiciones formales y primeros ejemplos
Funciones de Valor
Políticas Markovianas
3. Programación Dinámica
Ejemplos de algoritmos y su comparación con PD
Ecuaciones de Bellman
Solución clásica
Ecuación de Bellman para PDM
Relación con Teoría de Juegos
4. Invitación al Aprendizaje por Refuerzo
Política óptima y ecuaciones de Bellman
Algoritmos de Planeación
Solución vía programación lineal
Algoritmo de programación estocástica
Q-learning
Relaciones con el aprendizaje profundo