Colapso de modelos (paper)

La Era de la Experiencia es un artículo de David Silver y Richard S. Sutton (2025) que argumenta que la IA está transitando de aprender de datos humanos a aprender de su propia experiencia interactuando con entornos.

Datos

Autores: David Silver, Richard S. Sutton
Fecha: 2025 (preprint, capítulo de libro MIT Press - "Designing an Intelligence")
Tipo: Artículo académico
Dominio: Inteligencia Artificial

Puntos clave

Los datos humanos (entrenamiento de LLMs) están alcanzando rendimientos decrecientes; la próxima frontera es el aprendizaje experiencial
Tres eras de la IA: Era de Simulación (RL en juegos) → Era de Datos Humanos (LLMs) → Era de la Experiencia
AlphaProof generó 100 millones de pruebas auto-generadas vs 100 mil pruebas humanas
Cuatro dimensiones clave de la nueva era:
1. Flujos continuos de experiencia (no episodios cortos)
2. Acciones y observaciones ricas (no solo texto)
3. Recompensas fundamentadas en el entorno (no juicio humano)
4. Razonamiento sobre experiencia (no solo imitación humana)
El lenguaje humano probablemente NO es el "computador" óptimo para razonar; modos de pensamiento no-humanos (simbólicos, continuos, diferenciables) pueden ser más eficientes

Resumen detallado

Silver y Sutton argumentan que la IA está transitando de una era dominada por aprender de datos generados por humanos a una donde los agentes aprenden principalmente de su propia experiencia interactuando con entornos. Los LLMs entrenados con datos humanos han logrado una generalidad impresionante, pero se están acercando a un techo: las fuentes de datos de alta calidad se están agotando.

Los autores esbozan cuatro características de esta nueva era. Los agentes existirán en flujos continuos de experiencia, interactuarán a través de acciones ricas más allá del texto, las recompensas estarán fundamentadas en señales del entorno (métricas de salud, resultados de exámenes, niveles de CO2), y los agentes desarrollarán métodos de razonamiento no-humanos.

El paper reconoce riesgos de seguridad (menor intervención humana, menor interpretabilidad) pero argumenta que el aprendizaje experiencial también ofrece beneficios: los agentes pueden adaptarse a cambios ambientales y las funciones de recompensa pueden corregirse a través de la experiencia.

Citas notables

Plantilla:Cita

Conceptos referenciados

Aprendizaje por refuerzo — mecanismo central del aprendizaje experiencial
Razonamiento en LLMs — la limitación del razonamiento basado en lenguaje humano

Véase también

La Ilusión de la Ilusión de Pensar — sobre las limitaciones percibidas vs reales del razonamiento
Pensamiento crítico — implicaciones del cambio de paradigma para trabajadores del conocimiento

Colapso de modelos (paper)

Sumario

Datos

Puntos clave

Resumen detallado

Citas notables

Conceptos referenciados

Véase también

Menú de navegación

Colapso de modelos (paper)

Datos

Puntos clave

Resumen detallado

Citas notables

Conceptos referenciados

Véase también

Menú de navegación

Buscar