Colapso de modelos (paper)
La Era de la Experiencia es un artículo de David Silver y Richard S. Sutton (2025) que argumenta que la IA está transitando de aprender de datos humanos a aprender de su propia experiencia interactuando con entornos.
Datos
- Autores: David Silver, Richard S. Sutton
- Fecha: 2025 (preprint, capítulo de libro MIT Press - "Designing an Intelligence")
- Tipo: Artículo académico
- Dominio: Inteligencia Artificial
Puntos clave
- Los datos humanos (entrenamiento de LLMs) están alcanzando rendimientos decrecientes; la próxima frontera es el aprendizaje experiencial
- Tres eras de la IA: Era de Simulación (RL en juegos) → Era de Datos Humanos (LLMs) → Era de la Experiencia
- AlphaProof generó 100 millones de pruebas auto-generadas vs 100 mil pruebas humanas
- Cuatro dimensiones clave de la nueva era:
- Flujos continuos de experiencia (no episodios cortos)
- Acciones y observaciones ricas (no solo texto)
- Recompensas fundamentadas en el entorno (no juicio humano)
- Razonamiento sobre experiencia (no solo imitación humana)
- El lenguaje humano probablemente NO es el "computador" óptimo para razonar; modos de pensamiento no-humanos (simbólicos, continuos, diferenciables) pueden ser más eficientes
Resumen detallado
Silver y Sutton argumentan que la IA está transitando de una era dominada por aprender de datos generados por humanos a una donde los agentes aprenden principalmente de su propia experiencia interactuando con entornos. Los LLMs entrenados con datos humanos han logrado una generalidad impresionante, pero se están acercando a un techo: las fuentes de datos de alta calidad se están agotando.
Los autores esbozan cuatro características de esta nueva era. Los agentes existirán en flujos continuos de experiencia, interactuarán a través de acciones ricas más allá del texto, las recompensas estarán fundamentadas en señales del entorno (métricas de salud, resultados de exámenes, niveles de CO2), y los agentes desarrollarán métodos de razonamiento no-humanos.
El paper reconoce riesgos de seguridad (menor intervención humana, menor interpretabilidad) pero argumenta que el aprendizaje experiencial también ofrece beneficios: los agentes pueden adaptarse a cambios ambientales y las funciones de recompensa pueden corregirse a través de la experiencia.
Citas notables
Conceptos referenciados
- Aprendizaje por refuerzo — mecanismo central del aprendizaje experiencial
- Razonamiento en LLMs — la limitación del razonamiento basado en lenguaje humano
Véase también
- La Ilusión de la Ilusión de Pensar — sobre las limitaciones percibidas vs reales del razonamiento
- Pensamiento crítico — implicaciones del cambio de paradigma para trabajadores del conocimiento