Freddy: LLM Wiki ingest

2026-04-05T23:07:02Z

LLM Wiki ingest

Página nueva

'''La Era de la Experiencia''' es un artículo de David Silver y Richard S. Sutton (2025) que argumenta que la IA está transitando de aprender de datos humanos a aprender de su propia experiencia interactuando con entornos.

== Datos ==
* Autores: David Silver, Richard S. Sutton
* Fecha: 2025 (preprint, capítulo de libro MIT Press - "Designing an Intelligence")
* Tipo: Artículo académico
* Dominio: Inteligencia Artificial

== Puntos clave ==
* Los datos humanos (entrenamiento de LLMs) están alcanzando rendimientos decrecientes; la próxima frontera es el aprendizaje experiencial
* Tres eras de la IA: Era de Simulación (RL en juegos) → Era de Datos Humanos (LLMs) → Era de la Experiencia
* AlphaProof generó 100 millones de pruebas auto-generadas vs 100 mil pruebas humanas
* Cuatro dimensiones clave de la nueva era:
*# Flujos continuos de experiencia (no episodios cortos)
*# Acciones y observaciones ricas (no solo texto)
*# Recompensas fundamentadas en el entorno (no juicio humano)
*# Razonamiento sobre experiencia (no solo imitación humana)
* El lenguaje humano probablemente NO es el "computador" óptimo para razonar; modos de pensamiento no-humanos (simbólicos, continuos, diferenciables) pueden ser más eficientes

== Resumen detallado ==
Silver y Sutton argumentan que la IA está transitando de una era dominada por aprender de datos generados por humanos a una donde los agentes aprenden principalmente de su propia experiencia interactuando con entornos. Los LLMs entrenados con datos humanos han logrado una generalidad impresionante, pero se están acercando a un techo: las fuentes de datos de alta calidad se están agotando.

Los autores esbozan cuatro características de esta nueva era. Los agentes existirán en flujos continuos de experiencia, interactuarán a través de acciones ricas más allá del texto, las recompensas estarán fundamentadas en señales del entorno (métricas de salud, resultados de exámenes, niveles de CO2), y los agentes desarrollarán métodos de [[Razonamiento en LLMs|razonamiento]] no-humanos.

El paper reconoce riesgos de seguridad (menor intervención humana, menor interpretabilidad) pero argumenta que el aprendizaje experiencial también ofrece beneficios: los agentes pueden adaptarse a cambios ambientales y las funciones de recompensa pueden corregirse a través de la experiencia.

== Citas notables ==
{{Cita|En vez de enseñarle explícitamente al modelo cómo resolver un problema, simplemente le proporcionamos los incentivos correctos, y autónomamente desarrolla estrategias avanzadas de resolución de problemas.|DeepSeek, citado en p. 2}}

{{Cita|Es altamente improbable que el lenguaje humano proporcione la instancia óptima de un computador universal. Mecanismos de pensamiento más eficientes seguramente existen.|p. 5}}

== Conceptos referenciados ==
* [[Aprendizaje por refuerzo]] — mecanismo central del aprendizaje experiencial
* [[Razonamiento en LLMs]] — la limitación del razonamiento basado en lenguaje humano

== Véase también ==
* [[La Ilusión de la Ilusión de Pensar]] — sobre las limitaciones percibidas vs reales del razonamiento
* [[Pensamiento crítico]] — implicaciones del cambio de paradigma para trabajadores del conocimiento

[[Categoría:Fuentes]][[Categoría:IA]][[Categoría:Aprendizaje por refuerzo]]

La Era de la Experiencia - Historial de revisiones

Freddy: LLM Wiki ingest