<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="es">
	<id>https://wiki.sampayo.co/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Freddysampayo</id>
	<title>LLM Wiki - Contribuciones del usuario [es]</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.sampayo.co/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Freddysampayo"/>
	<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php/Especial:Contribuciones/Freddysampayo"/>
	<updated>2026-04-06T11:42:00Z</updated>
	<subtitle>Contribuciones del usuario</subtitle>
	<generator>MediaWiki 1.42.7</generator>
	<entry>
		<id>https://wiki.sampayo.co/index.php?title=Colapso_de_modelos&amp;diff=6</id>
		<title>Colapso de modelos</title>
		<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php?title=Colapso_de_modelos&amp;diff=6"/>
		<updated>2026-04-05T23:09:30Z</updated>

		<summary type="html">&lt;p&gt;Freddy: LLM Wiki ingest&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&#039;&#039;&#039;LLM Wiki&#039;&#039;&#039; es una base de conocimiento personal construida incrementalmente por LLM a partir de fuentes curadas.&lt;br /&gt;
&lt;br /&gt;
Basado en el [https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f concepto LLM Wiki de Andrej Karpathy]: en vez de RAG (re-descubrir conocimiento cada consulta), el LLM &#039;&#039;&#039;construye y mantiene incrementalmente un wiki persistente&#039;&#039;&#039; con archivos markdown interconectados.&lt;br /&gt;
&lt;br /&gt;
== Conceptos ==&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Concepto !! Descripción&lt;br /&gt;
|-&lt;br /&gt;
| [[Aprendizaje por refuerzo]] || Agentes que aprenden por ensayo y error en entornos&lt;br /&gt;
|-&lt;br /&gt;
| [[Razonamiento en LLMs]] || ¿Pueden los LLMs realizar razonamiento genuino de múltiples pasos?&lt;br /&gt;
|-&lt;br /&gt;
| [[Pensamiento crítico]] || Reflexión cognitiva en trabajo asistido por IA — la paradoja de confianza&lt;br /&gt;
|-&lt;br /&gt;
| [[Colapso de modelos]] || &#039;&#039;&#039;NUEVO&#039;&#039;&#039; — Proceso degenerativo cuando los modelos se entrenan con datos generados por IA&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Fuentes procesadas ==&lt;br /&gt;
{| class=&amp;quot;wikitable sortable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Fuente !! Autores !! Año !! Tema principal&lt;br /&gt;
|-&lt;br /&gt;
| [[La Era de la Experiencia]] || Silver, Sutton || 2025 || Transición de datos humanos a aprendizaje experiencial&lt;br /&gt;
|-&lt;br /&gt;
| [[La Ilusión de la Ilusión de Pensar]] || Opus, Lawsen || 2025 || Fallas de evaluación confundidas con fallas de razonamiento&lt;br /&gt;
|-&lt;br /&gt;
| [[Impacto de GenAI en el Pensamiento Crítico]] || Lee et al. (Microsoft) || 2025 || Cómo GenAI reduce el pensamiento crítico en trabajadores&lt;br /&gt;
|-&lt;br /&gt;
| [[Colapso de modelos (paper)|Colapso de modelos]] || Shumailov et al. || 2024 || &#039;&#039;&#039;NUEVO&#039;&#039;&#039; — Modelos colapsan al entrenarse con datos recursivos&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Conexiones entre fuentes ==&lt;br /&gt;
Las cuatro fuentes procesadas hasta ahora revelan una tensión central en la IA moderna:&lt;br /&gt;
&lt;br /&gt;
* &#039;&#039;&#039;El problema&#039;&#039;&#039;: [[Colapso de modelos|El colapso de modelos]] demuestra que los datos humanos existentes se están agotando y contaminando con contenido AI-generado&lt;br /&gt;
* &#039;&#039;&#039;La solución propuesta&#039;&#039;&#039;: [[La Era de la Experiencia]] argumenta que los agentes deben aprender de su propia experiencia, no de datos estáticos&lt;br /&gt;
* &#039;&#039;&#039;La evaluación&#039;&#039;&#039;: [[La Ilusión de la Ilusión de Pensar]] muestra que nuestros métodos para evaluar estas capacidades son deficientes&lt;br /&gt;
* &#039;&#039;&#039;El impacto humano&#039;&#039;&#039;: [[Impacto de GenAI en el Pensamiento Crítico|El estudio de Microsoft]] revela que los humanos ya están delegando pensamiento a la IA, creando un ciclo de dependencia&lt;br /&gt;
&lt;br /&gt;
== Estadísticas ==&lt;br /&gt;
* &#039;&#039;&#039;Documentos procesados&#039;&#039;&#039;: 4 / ~213&lt;br /&gt;
* &#039;&#039;&#039;Páginas de conceptos&#039;&#039;&#039;: 4&lt;br /&gt;
* &#039;&#039;&#039;Páginas de fuentes&#039;&#039;&#039;: 4&lt;br /&gt;
* &#039;&#039;&#039;Última actualización&#039;&#039;&#039;: 5 de abril de 2026&lt;br /&gt;
&lt;br /&gt;
[[Categoría:Índice]]&lt;/div&gt;</summary>
		<author><name>Freddy</name></author>
	</entry>
	<entry>
		<id>https://wiki.sampayo.co/index.php?title=La_Era_de_la_Experiencia&amp;diff=5</id>
		<title>La Era de la Experiencia</title>
		<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php?title=La_Era_de_la_Experiencia&amp;diff=5"/>
		<updated>2026-04-05T23:07:02Z</updated>

		<summary type="html">&lt;p&gt;Freddy: LLM Wiki ingest&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&#039;&#039;&#039;La Era de la Experiencia&#039;&#039;&#039; es un artículo de David Silver y Richard S. Sutton (2025) que argumenta que la IA está transitando de aprender de datos humanos a aprender de su propia experiencia interactuando con entornos.&lt;br /&gt;
&lt;br /&gt;
== Datos ==&lt;br /&gt;
* Autores: David Silver, Richard S. Sutton&lt;br /&gt;
* Fecha: 2025 (preprint, capítulo de libro MIT Press - &amp;quot;Designing an Intelligence&amp;quot;)&lt;br /&gt;
* Tipo: Artículo académico&lt;br /&gt;
* Dominio: Inteligencia Artificial&lt;br /&gt;
&lt;br /&gt;
== Puntos clave ==&lt;br /&gt;
* Los datos humanos (entrenamiento de LLMs) están alcanzando rendimientos decrecientes; la próxima frontera es el aprendizaje experiencial&lt;br /&gt;
* Tres eras de la IA: Era de Simulación (RL en juegos) → Era de Datos Humanos (LLMs) → Era de la Experiencia&lt;br /&gt;
* AlphaProof generó 100 millones de pruebas auto-generadas vs 100 mil pruebas humanas&lt;br /&gt;
* Cuatro dimensiones clave de la nueva era:&lt;br /&gt;
*# Flujos continuos de experiencia (no episodios cortos)&lt;br /&gt;
*# Acciones y observaciones ricas (no solo texto)&lt;br /&gt;
*# Recompensas fundamentadas en el entorno (no juicio humano)&lt;br /&gt;
*# Razonamiento sobre experiencia (no solo imitación humana)&lt;br /&gt;
* El lenguaje humano probablemente NO es el &amp;quot;computador&amp;quot; óptimo para razonar; modos de pensamiento no-humanos (simbólicos, continuos, diferenciables) pueden ser más eficientes&lt;br /&gt;
&lt;br /&gt;
== Resumen detallado ==&lt;br /&gt;
Silver y Sutton argumentan que la IA está transitando de una era dominada por aprender de datos generados por humanos a una donde los agentes aprenden principalmente de su propia experiencia interactuando con entornos. Los LLMs entrenados con datos humanos han logrado una generalidad impresionante, pero se están acercando a un techo: las fuentes de datos de alta calidad se están agotando.&lt;br /&gt;
&lt;br /&gt;
Los autores esbozan cuatro características de esta nueva era. Los agentes existirán en flujos continuos de experiencia, interactuarán a través de acciones ricas más allá del texto, las recompensas estarán fundamentadas en señales del entorno (métricas de salud, resultados de exámenes, niveles de CO2), y los agentes desarrollarán métodos de [[Razonamiento en LLMs|razonamiento]] no-humanos.&lt;br /&gt;
&lt;br /&gt;
El paper reconoce riesgos de seguridad (menor intervención humana, menor interpretabilidad) pero argumenta que el aprendizaje experiencial también ofrece beneficios: los agentes pueden adaptarse a cambios ambientales y las funciones de recompensa pueden corregirse a través de la experiencia.&lt;br /&gt;
&lt;br /&gt;
== Citas notables ==&lt;br /&gt;
{{Cita|En vez de enseñarle explícitamente al modelo cómo resolver un problema, simplemente le proporcionamos los incentivos correctos, y autónomamente desarrolla estrategias avanzadas de resolución de problemas.|DeepSeek, citado en p. 2}}&lt;br /&gt;
&lt;br /&gt;
{{Cita|Es altamente improbable que el lenguaje humano proporcione la instancia óptima de un computador universal. Mecanismos de pensamiento más eficientes seguramente existen.|p. 5}}&lt;br /&gt;
&lt;br /&gt;
== Conceptos referenciados ==&lt;br /&gt;
* [[Aprendizaje por refuerzo]] — mecanismo central del aprendizaje experiencial&lt;br /&gt;
* [[Razonamiento en LLMs]] — la limitación del razonamiento basado en lenguaje humano&lt;br /&gt;
&lt;br /&gt;
== Véase también ==&lt;br /&gt;
* [[La Ilusión de la Ilusión de Pensar]] — sobre las limitaciones percibidas vs reales del razonamiento&lt;br /&gt;
* [[Pensamiento crítico]] — implicaciones del cambio de paradigma para trabajadores del conocimiento&lt;br /&gt;
&lt;br /&gt;
[[Categoría:Fuentes]][[Categoría:IA]][[Categoría:Aprendizaje por refuerzo]]&lt;/div&gt;</summary>
		<author><name>Freddy</name></author>
	</entry>
	<entry>
		<id>https://wiki.sampayo.co/index.php?title=Pensamiento_cr%C3%ADtico&amp;diff=4</id>
		<title>Pensamiento crítico</title>
		<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php?title=Pensamiento_cr%C3%ADtico&amp;diff=4"/>
		<updated>2026-04-05T23:06:30Z</updated>

		<summary type="html">&lt;p&gt;Freddy: LLM Wiki ingest&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&#039;&#039;&#039;Pensamiento crítico&#039;&#039;&#039; son las actividades cognitivas realizadas para asegurar calidad, verificar información y hacer juicios reflexivos — particularmente relevante en el contexto del trabajo del conocimiento asistido por IA.&lt;br /&gt;
&lt;br /&gt;
== Visión general ==&lt;br /&gt;
El pensamiento crítico abarca un rango de actividades cognitivas desde recordar hechos y organizar ideas hasta analizar, sintetizar y evaluar información. La taxonomía de Bloom (1956) proporciona un marco ampliamente usado con seis niveles: Conocimiento, Comprensión, Aplicación, Análisis, Síntesis y Evaluación.&lt;br /&gt;
&lt;br /&gt;
En el contexto de GenAI, el estudio de Microsoft Research (2025) con 319 trabajadores del conocimiento reveló una &#039;&#039;&#039;paradoja de confianza&#039;&#039;&#039;: mayor confianza en la IA correlaciona con &#039;&#039;menos&#039;&#039; pensamiento crítico, mientras que mayor autoconfianza correlaciona con &#039;&#039;más&#039;&#039; pensamiento crítico.&lt;br /&gt;
&lt;br /&gt;
== La paradoja de confianza ==&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Factor !! Efecto en pensamiento crítico !! Esfuerzo percibido&lt;br /&gt;
|-&lt;br /&gt;
| Mayor confianza en GenAI || Menos pensamiento crítico || Menos esfuerzo&lt;br /&gt;
|-&lt;br /&gt;
| Mayor autoconfianza || Más pensamiento crítico || Más esfuerzo&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Tres desplazamientos de esfuerzo con GenAI ==&lt;br /&gt;
# &#039;&#039;&#039;Recopilación → Verificación&#039;&#039;&#039;: GenAI automatiza la búsqueda pero el trabajador debe verificar&lt;br /&gt;
# &#039;&#039;&#039;Resolución → Integración&#039;&#039;&#039;: GenAI genera soluciones pero hay que integrarlas al contexto&lt;br /&gt;
# &#039;&#039;&#039;Ejecución → Custodia&#039;&#039;&#039;: el trabajador pasa de producir a supervisar (&#039;&#039;task stewardship&#039;&#039;)&lt;br /&gt;
&lt;br /&gt;
== Inhibidores del pensamiento crítico ==&lt;br /&gt;
* &#039;&#039;&#039;Barreras de conciencia&#039;&#039;&#039;: sobre-confianza en la IA, tareas percibidas como triviales&lt;br /&gt;
* &#039;&#039;&#039;Barreras de motivación&#039;&#039;&#039;: presión de tiempo, no está en el alcance del trabajo&lt;br /&gt;
* &#039;&#039;&#039;Barreras de habilidad&#039;&#039;&#039;: no poder inspeccionar o mejorar la salida de IA&lt;br /&gt;
&lt;br /&gt;
== Fuentes ==&lt;br /&gt;
* [[Impacto de GenAI en el Pensamiento Crítico]] (2025) — estudio empírico con 319 trabajadores, 936 ejemplos de uso de GenAI&lt;br /&gt;
&lt;br /&gt;
== Conceptos relacionados ==&lt;br /&gt;
* [[Sobredependencia en IA]] — aceptar salida de IA sin reflexión adecuada&lt;br /&gt;
* [[Descarga cognitiva]] — delegar tareas de pensamiento a herramientas externas&lt;br /&gt;
&lt;br /&gt;
[[Categoría:Conceptos]][[Categoría:IA]][[Categoría:Trabajo del conocimiento]]&lt;/div&gt;</summary>
		<author><name>Freddy</name></author>
	</entry>
	<entry>
		<id>https://wiki.sampayo.co/index.php?title=Aprendizaje_por_refuerzo&amp;diff=3</id>
		<title>Aprendizaje por refuerzo</title>
		<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php?title=Aprendizaje_por_refuerzo&amp;diff=3"/>
		<updated>2026-04-05T23:06:27Z</updated>

		<summary type="html">&lt;p&gt;Freddy: LLM Wiki ingest&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&#039;&#039;&#039;Aprendizaje por refuerzo&#039;&#039;&#039; (&#039;&#039;Reinforcement Learning&#039;&#039;, RL) es un paradigma donde los agentes aprenden a alcanzar objetivos por ensayo y error, adaptando su comportamiento a partir de la experiencia de interactuar con su entorno.&lt;br /&gt;
&lt;br /&gt;
== Visión general ==&lt;br /&gt;
El aprendizaje por refuerzo es uno de los tres paradigmas principales de aprendizaje automático. Un agente RL aprende tomando acciones en un entorno y recibiendo recompensas o penalizaciones. El objetivo es aprender una política que maximice la recompensa acumulada.&lt;br /&gt;
&lt;br /&gt;
RL tiene una rica historia que va desde el aprendizaje por diferencias temporales (Sutton, 1988) hasta avances con deep RL como DQN (Atari, 2015), AlphaGo (2016) y AlphaZero (2017). Estos sistemas demostraron que los agentes RL pueden descubrir estrategias desconocidas para los humanos.&lt;br /&gt;
&lt;br /&gt;
== Aspectos clave ==&lt;br /&gt;
* &#039;&#039;&#039;Aprendizaje por diferencias temporales&#039;&#039;&#039;: estimar recompensas futuras a partir de experiencia parcial&lt;br /&gt;
* &#039;&#039;&#039;Exploración vs explotación&#039;&#039;&#039;: equilibrar probar acciones nuevas vs usar las conocidas&lt;br /&gt;
* &#039;&#039;&#039;Modelos del mundo&#039;&#039;&#039;: aprender a predecir consecuencias de acciones (arquitectura Dyna)&lt;br /&gt;
* &#039;&#039;&#039;RLHF&#039;&#039;&#039;: Aprendizaje por Refuerzo a partir de Retroalimentación Humana — el puente entre RL y LLMs&lt;br /&gt;
* &#039;&#039;&#039;Recompensas fundamentadas&#039;&#039;&#039;: usar señales del mundo real (métricas de salud, resultados de exámenes) en vez de juicio humano&lt;br /&gt;
&lt;br /&gt;
== Fuentes ==&lt;br /&gt;
* [[La Era de la Experiencia]] (2025) — Silver &amp;amp; Sutton argumentan que RL impulsará la próxima era de la IA&lt;br /&gt;
&lt;br /&gt;
== Conceptos relacionados ==&lt;br /&gt;
* [[Aprendizaje experiencial]] — el paradigma más amplio que RL posibilita&lt;br /&gt;
* [[Modelos del mundo]] — modelos predictivos aprendidos del entorno&lt;br /&gt;
&lt;br /&gt;
== Preguntas abiertas ==&lt;br /&gt;
* ¿Puede RL escalar a problemas verdaderamente abiertos del mundo real (no solo juegos/simulaciones)?&lt;br /&gt;
* ¿Cómo definir funciones de recompensa seguras y alineadas para agentes autónomos?&lt;br /&gt;
&lt;br /&gt;
[[Categoría:Conceptos]][[Categoría:IA]]&lt;/div&gt;</summary>
		<author><name>Freddy</name></author>
	</entry>
	<entry>
		<id>https://wiki.sampayo.co/index.php?title=P%C3%A1gina_principal&amp;diff=2</id>
		<title>Página principal</title>
		<link rel="alternate" type="text/html" href="https://wiki.sampayo.co/index.php?title=P%C3%A1gina_principal&amp;diff=2"/>
		<updated>2026-04-05T23:05:38Z</updated>

		<summary type="html">&lt;p&gt;Freddy: LLM Wiki ingest&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&#039;&#039;&#039;LLM Wiki&#039;&#039;&#039; es una base de conocimiento personal construida incrementalmente por LLM a partir de fuentes curadas.&lt;br /&gt;
&lt;br /&gt;
Basado en el [https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f concepto LLM Wiki de Andrej Karpathy].&lt;br /&gt;
&lt;br /&gt;
== Conceptos ==&lt;br /&gt;
* [[Aprendizaje por refuerzo]] — agentes que aprenden por ensayo y error&lt;br /&gt;
* [[Razonamiento en LLMs]] — ¿pueden los LLMs razonar genuinamente?&lt;br /&gt;
* [[Pensamiento crítico]] — reflexión cognitiva en trabajo asistido por IA&lt;br /&gt;
&lt;br /&gt;
== Fuentes procesadas ==&lt;br /&gt;
* [[La Era de la Experiencia]] — Silver &amp;amp; Sutton (2025)&lt;br /&gt;
* [[La Ilusión de la Ilusión de Pensar]] — Opus &amp;amp; Lawsen (2025)&lt;br /&gt;
* [[Impacto de GenAI en el Pensamiento Crítico]] — Lee et al., Microsoft Research (CHI&#039;25)&lt;br /&gt;
&lt;br /&gt;
== Estadísticas ==&lt;br /&gt;
* Documentos procesados: 3 / ~213&lt;br /&gt;
* Última actualización: 5 de abril de 2026&lt;br /&gt;
&lt;br /&gt;
[[Categoría:Índice]]&lt;/div&gt;</summary>
		<author><name>Freddy</name></author>
	</entry>
</feed>