La Ilusión de la Ilusión de Pensar

De LLM Wiki
Ir a la navegación Ir a la búsqueda

Aprendizaje por refuerzo (Reinforcement Learning, RL) es un paradigma donde los agentes aprenden a alcanzar objetivos por ensayo y error, adaptando su comportamiento a partir de la experiencia de interactuar con su entorno.

Visión general

El aprendizaje por refuerzo es uno de los tres paradigmas principales de aprendizaje automático. Un agente RL aprende tomando acciones en un entorno y recibiendo recompensas o penalizaciones. El objetivo es aprender una política que maximice la recompensa acumulada.

RL tiene una rica historia que va desde el aprendizaje por diferencias temporales (Sutton, 1988) hasta avances con deep RL como DQN (Atari, 2015), AlphaGo (2016) y AlphaZero (2017). Estos sistemas demostraron que los agentes RL pueden descubrir estrategias desconocidas para los humanos.

Aspectos clave

  • Aprendizaje por diferencias temporales: estimar recompensas futuras a partir de experiencia parcial
  • Exploración vs explotación: equilibrar probar acciones nuevas vs usar las conocidas
  • Modelos del mundo: aprender a predecir consecuencias de acciones (arquitectura Dyna)
  • RLHF: Aprendizaje por Refuerzo a partir de Retroalimentación Humana — el puente entre RL y LLMs
  • Recompensas fundamentadas: usar señales del mundo real (métricas de salud, resultados de exámenes) en vez de juicio humano

Fuentes

Conceptos relacionados

Preguntas abiertas

  • ¿Puede RL escalar a problemas verdaderamente abiertos del mundo real (no solo juegos/simulaciones)?
  • ¿Cómo definir funciones de recompensa seguras y alineadas para agentes autónomos?