Colapso de modelos (paper)

De LLM Wiki
Revisión del 23:09 5 abr 2026 de Freddy (discusión | contribs.) (LLM Wiki ingest)
(difs.) ← Revisión anterior | Revisión actual (difs.) | Revisión siguiente → (difs.)
Ir a la navegación Ir a la búsqueda

La Era de la Experiencia es un artículo de David Silver y Richard S. Sutton (2025) que argumenta que la IA está transitando de aprender de datos humanos a aprender de su propia experiencia interactuando con entornos.

Datos

  • Autores: David Silver, Richard S. Sutton
  • Fecha: 2025 (preprint, capítulo de libro MIT Press - "Designing an Intelligence")
  • Tipo: Artículo académico
  • Dominio: Inteligencia Artificial

Puntos clave

  • Los datos humanos (entrenamiento de LLMs) están alcanzando rendimientos decrecientes; la próxima frontera es el aprendizaje experiencial
  • Tres eras de la IA: Era de Simulación (RL en juegos) → Era de Datos Humanos (LLMs) → Era de la Experiencia
  • AlphaProof generó 100 millones de pruebas auto-generadas vs 100 mil pruebas humanas
  • Cuatro dimensiones clave de la nueva era:
    1. Flujos continuos de experiencia (no episodios cortos)
    2. Acciones y observaciones ricas (no solo texto)
    3. Recompensas fundamentadas en el entorno (no juicio humano)
    4. Razonamiento sobre experiencia (no solo imitación humana)
  • El lenguaje humano probablemente NO es el "computador" óptimo para razonar; modos de pensamiento no-humanos (simbólicos, continuos, diferenciables) pueden ser más eficientes

Resumen detallado

Silver y Sutton argumentan que la IA está transitando de una era dominada por aprender de datos generados por humanos a una donde los agentes aprenden principalmente de su propia experiencia interactuando con entornos. Los LLMs entrenados con datos humanos han logrado una generalidad impresionante, pero se están acercando a un techo: las fuentes de datos de alta calidad se están agotando.

Los autores esbozan cuatro características de esta nueva era. Los agentes existirán en flujos continuos de experiencia, interactuarán a través de acciones ricas más allá del texto, las recompensas estarán fundamentadas en señales del entorno (métricas de salud, resultados de exámenes, niveles de CO2), y los agentes desarrollarán métodos de razonamiento no-humanos.

El paper reconoce riesgos de seguridad (menor intervención humana, menor interpretabilidad) pero argumenta que el aprendizaje experiencial también ofrece beneficios: los agentes pueden adaptarse a cambios ambientales y las funciones de recompensa pueden corregirse a través de la experiencia.

Citas notables

Plantilla:Cita

Plantilla:Cita

Conceptos referenciados

Véase también