<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="es">
	<id>https://wiki.sampayo.co/index.php?action=history&amp;feed=atom&amp;title=La_Era_de_la_Experiencia</id>
	<title>La Era de la Experiencia - Historial de revisiones</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.sampayo.co/index.php?action=history&amp;feed=atom&amp;title=La_Era_de_la_Experiencia"/>
	<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php?title=La_Era_de_la_Experiencia&amp;action=history"/>
	<updated>2026-04-06T07:30:39Z</updated>
	<subtitle>Historial de revisiones de esta página en la wiki</subtitle>
	<generator>MediaWiki 1.42.7</generator>
	<entry>
		<id>https://wiki.sampayo.co/index.php?title=La_Era_de_la_Experiencia&amp;diff=5&amp;oldid=prev</id>
		<title>Freddy: LLM Wiki ingest</title>
		<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php?title=La_Era_de_la_Experiencia&amp;diff=5&amp;oldid=prev"/>
		<updated>2026-04-05T23:07:02Z</updated>

		<summary type="html">&lt;p&gt;LLM Wiki ingest&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Página nueva&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;#039;&amp;#039;&amp;#039;La Era de la Experiencia&amp;#039;&amp;#039;&amp;#039; es un artículo de David Silver y Richard S. Sutton (2025) que argumenta que la IA está transitando de aprender de datos humanos a aprender de su propia experiencia interactuando con entornos.&lt;br /&gt;
&lt;br /&gt;
== Datos ==&lt;br /&gt;
* Autores: David Silver, Richard S. Sutton&lt;br /&gt;
* Fecha: 2025 (preprint, capítulo de libro MIT Press - &amp;quot;Designing an Intelligence&amp;quot;)&lt;br /&gt;
* Tipo: Artículo académico&lt;br /&gt;
* Dominio: Inteligencia Artificial&lt;br /&gt;
&lt;br /&gt;
== Puntos clave ==&lt;br /&gt;
* Los datos humanos (entrenamiento de LLMs) están alcanzando rendimientos decrecientes; la próxima frontera es el aprendizaje experiencial&lt;br /&gt;
* Tres eras de la IA: Era de Simulación (RL en juegos) → Era de Datos Humanos (LLMs) → Era de la Experiencia&lt;br /&gt;
* AlphaProof generó 100 millones de pruebas auto-generadas vs 100 mil pruebas humanas&lt;br /&gt;
* Cuatro dimensiones clave de la nueva era:&lt;br /&gt;
*# Flujos continuos de experiencia (no episodios cortos)&lt;br /&gt;
*# Acciones y observaciones ricas (no solo texto)&lt;br /&gt;
*# Recompensas fundamentadas en el entorno (no juicio humano)&lt;br /&gt;
*# Razonamiento sobre experiencia (no solo imitación humana)&lt;br /&gt;
* El lenguaje humano probablemente NO es el &amp;quot;computador&amp;quot; óptimo para razonar; modos de pensamiento no-humanos (simbólicos, continuos, diferenciables) pueden ser más eficientes&lt;br /&gt;
&lt;br /&gt;
== Resumen detallado ==&lt;br /&gt;
Silver y Sutton argumentan que la IA está transitando de una era dominada por aprender de datos generados por humanos a una donde los agentes aprenden principalmente de su propia experiencia interactuando con entornos. Los LLMs entrenados con datos humanos han logrado una generalidad impresionante, pero se están acercando a un techo: las fuentes de datos de alta calidad se están agotando.&lt;br /&gt;
&lt;br /&gt;
Los autores esbozan cuatro características de esta nueva era. Los agentes existirán en flujos continuos de experiencia, interactuarán a través de acciones ricas más allá del texto, las recompensas estarán fundamentadas en señales del entorno (métricas de salud, resultados de exámenes, niveles de CO2), y los agentes desarrollarán métodos de [[Razonamiento en LLMs|razonamiento]] no-humanos.&lt;br /&gt;
&lt;br /&gt;
El paper reconoce riesgos de seguridad (menor intervención humana, menor interpretabilidad) pero argumenta que el aprendizaje experiencial también ofrece beneficios: los agentes pueden adaptarse a cambios ambientales y las funciones de recompensa pueden corregirse a través de la experiencia.&lt;br /&gt;
&lt;br /&gt;
== Citas notables ==&lt;br /&gt;
{{Cita|En vez de enseñarle explícitamente al modelo cómo resolver un problema, simplemente le proporcionamos los incentivos correctos, y autónomamente desarrolla estrategias avanzadas de resolución de problemas.|DeepSeek, citado en p. 2}}&lt;br /&gt;
&lt;br /&gt;
{{Cita|Es altamente improbable que el lenguaje humano proporcione la instancia óptima de un computador universal. Mecanismos de pensamiento más eficientes seguramente existen.|p. 5}}&lt;br /&gt;
&lt;br /&gt;
== Conceptos referenciados ==&lt;br /&gt;
* [[Aprendizaje por refuerzo]] — mecanismo central del aprendizaje experiencial&lt;br /&gt;
* [[Razonamiento en LLMs]] — la limitación del razonamiento basado en lenguaje humano&lt;br /&gt;
&lt;br /&gt;
== Véase también ==&lt;br /&gt;
* [[La Ilusión de la Ilusión de Pensar]] — sobre las limitaciones percibidas vs reales del razonamiento&lt;br /&gt;
* [[Pensamiento crítico]] — implicaciones del cambio de paradigma para trabajadores del conocimiento&lt;br /&gt;
&lt;br /&gt;
[[Categoría:Fuentes]][[Categoría:IA]][[Categoría:Aprendizaje por refuerzo]]&lt;/div&gt;</summary>
		<author><name>Freddy</name></author>
	</entry>
</feed>