Reinforcement Learning

BB.png

WHAT WE DO

BB2.png

Objetivos



Estudiar las bases teóricas y técnicas para comprender las aplicaciones del Aprendizaje por Refuerzo, haciendo énfasis en los Modelos de Decisión de Markov y la Programación Dinámica.

Familiarizar al alumno con aquellas aplicaciones de los Modelos de Decisión de Markov y de la Programación Dinámica fuera del contexto de Aprendizaje por Refuerzo.

Estudiar las ideas principales y analizar las situaciones cuando el Aprendizaje por Refuerzo es una técnica poderosa



Temario



1. Cadenas de Markov y métodos de muestreo

Repaso de los fundamentos de la Probabilidad

Ley de los Grandes Números y Método Monte Carlo

Definición de Cadenas de Markov y primeros ejemplos

Medidas estacionarias y Teoremas Ergódicos

Monte Carlo para Cadenas de Markov

Metropolis-Hastling



2. Procesos de Decisión de Markov

Definiciones formales y primeros ejemplos

Funciones de Valor

Políticas Markovianas



3. Programación Dinámica

Ejemplos de algoritmos y su comparación con PD

Ecuaciones de Bellman

Solución clásica

Ecuación de Bellman para PDM

Relación con Teoría de Juegos



4. Invitación al Aprendizaje por Refuerzo

Política óptima y ecuaciones de Bellman

Algoritmos de Planeación

Solución vía programación lineal

Algoritmo de programación estocástica

Q-learning

Relaciones con el aprendizaje profundo

TEMARIO