La Ilusión de la Ilusión de Pensar
Aprendizaje por refuerzo (Reinforcement Learning, RL) es un paradigma donde los agentes aprenden a alcanzar objetivos por ensayo y error, adaptando su comportamiento a partir de la experiencia de interactuar con su entorno.
Visión general
El aprendizaje por refuerzo es uno de los tres paradigmas principales de aprendizaje automático. Un agente RL aprende tomando acciones en un entorno y recibiendo recompensas o penalizaciones. El objetivo es aprender una política que maximice la recompensa acumulada.
RL tiene una rica historia que va desde el aprendizaje por diferencias temporales (Sutton, 1988) hasta avances con deep RL como DQN (Atari, 2015), AlphaGo (2016) y AlphaZero (2017). Estos sistemas demostraron que los agentes RL pueden descubrir estrategias desconocidas para los humanos.
Aspectos clave
- Aprendizaje por diferencias temporales: estimar recompensas futuras a partir de experiencia parcial
- Exploración vs explotación: equilibrar probar acciones nuevas vs usar las conocidas
- Modelos del mundo: aprender a predecir consecuencias de acciones (arquitectura Dyna)
- RLHF: Aprendizaje por Refuerzo a partir de Retroalimentación Humana — el puente entre RL y LLMs
- Recompensas fundamentadas: usar señales del mundo real (métricas de salud, resultados de exámenes) en vez de juicio humano
Fuentes
- La Era de la Experiencia (2025) — Silver & Sutton argumentan que RL impulsará la próxima era de la IA
Conceptos relacionados
- Aprendizaje experiencial — el paradigma más amplio que RL posibilita
- Modelos del mundo — modelos predictivos aprendidos del entorno
Preguntas abiertas
- ¿Puede RL escalar a problemas verdaderamente abiertos del mundo real (no solo juegos/simulaciones)?
- ¿Cómo definir funciones de recompensa seguras y alineadas para agentes autónomos?