Aprendizaje por refuerzo

El aprendizaje por refuerzo es una clase de aprendizaje automático en la que un agente aprende a tomar secuencias de decisiones por ensayo y error, recibiendo recompensas o penalizaciones por sus acciones. Se aplica a problemas de control y optimización como la gestión energética y el ajuste de procesos.

En lugar de aprender de ejemplos etiquetados, un agente de aprendizaje por refuerzo interactúa con un entorno, toma acciones, observa el estado y la recompensa resultantes, y aprende gradualmente una política que maximiza la recompensa acumulada. En la industria resulta prometedor para el control y la programación complejos, donde es difícil especificar directamente las buenas acciones. Como el ensayo y error en el mundo real puede ser costoso o inseguro, el entrenamiento suele realizarse contra una simulación o un gemelo digital antes del despliegue.

Términos relacionados