LLM Wiki - Contribuciones del usuario [es]

Colapso de modelos

2026-04-05T23:09:30Z

Freddy: LLM Wiki ingest

'''LLM Wiki''' es una base de conocimiento personal construida incrementalmente por LLM a partir de fuentes curadas.

Basado en el [https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f concepto LLM Wiki de Andrej Karpathy]: en vez de RAG (re-descubrir conocimiento cada consulta), el LLM '''construye y mantiene incrementalmente un wiki persistente''' con archivos markdown interconectados.

== Conceptos ==
{| class="wikitable"
|-
! Concepto !! Descripción
|-
| [[Aprendizaje por refuerzo]] || Agentes que aprenden por ensayo y error en entornos
|-
| [[Razonamiento en LLMs]] || ¿Pueden los LLMs realizar razonamiento genuino de múltiples pasos?
|-
| [[Pensamiento crítico]] || Reflexión cognitiva en trabajo asistido por IA — la paradoja de confianza
|-
| [[Colapso de modelos]] || '''NUEVO''' — Proceso degenerativo cuando los modelos se entrenan con datos generados por IA
|}

== Fuentes procesadas ==
{| class="wikitable sortable"
|-
! Fuente !! Autores !! Año !! Tema principal
|-
| [[La Era de la Experiencia]] || Silver, Sutton || 2025 || Transición de datos humanos a aprendizaje experiencial
|-
| [[La Ilusión de la Ilusión de Pensar]] || Opus, Lawsen || 2025 || Fallas de evaluación confundidas con fallas de razonamiento
|-
| [[Impacto de GenAI en el Pensamiento Crítico]] || Lee et al. (Microsoft) || 2025 || Cómo GenAI reduce el pensamiento crítico en trabajadores
|-
| [[Colapso de modelos (paper)|Colapso de modelos]] || Shumailov et al. || 2024 || '''NUEVO''' — Modelos colapsan al entrenarse con datos recursivos
|}

== Conexiones entre fuentes ==
Las cuatro fuentes procesadas hasta ahora revelan una tensión central en la IA moderna:

* '''El problema''': [[Colapso de modelos|El colapso de modelos]] demuestra que los datos humanos existentes se están agotando y contaminando con contenido AI-generado
* '''La solución propuesta''': [[La Era de la Experiencia]] argumenta que los agentes deben aprender de su propia experiencia, no de datos estáticos
* '''La evaluación''': [[La Ilusión de la Ilusión de Pensar]] muestra que nuestros métodos para evaluar estas capacidades son deficientes
* '''El impacto humano''': [[Impacto de GenAI en el Pensamiento Crítico|El estudio de Microsoft]] revela que los humanos ya están delegando pensamiento a la IA, creando un ciclo de dependencia

== Estadísticas ==
* '''Documentos procesados''': 4 / ~213
* '''Páginas de conceptos''': 4
* '''Páginas de fuentes''': 4
* '''Última actualización''': 5 de abril de 2026

[[Categoría:Índice]]

La Era de la Experiencia

2026-04-05T23:07:02Z

Freddy: LLM Wiki ingest

'''La Era de la Experiencia''' es un artículo de David Silver y Richard S. Sutton (2025) que argumenta que la IA está transitando de aprender de datos humanos a aprender de su propia experiencia interactuando con entornos.

== Datos ==
* Autores: David Silver, Richard S. Sutton
* Fecha: 2025 (preprint, capítulo de libro MIT Press - "Designing an Intelligence")
* Tipo: Artículo académico
* Dominio: Inteligencia Artificial

== Puntos clave ==
* Los datos humanos (entrenamiento de LLMs) están alcanzando rendimientos decrecientes; la próxima frontera es el aprendizaje experiencial
* Tres eras de la IA: Era de Simulación (RL en juegos) → Era de Datos Humanos (LLMs) → Era de la Experiencia
* AlphaProof generó 100 millones de pruebas auto-generadas vs 100 mil pruebas humanas
* Cuatro dimensiones clave de la nueva era:
*# Flujos continuos de experiencia (no episodios cortos)
*# Acciones y observaciones ricas (no solo texto)
*# Recompensas fundamentadas en el entorno (no juicio humano)
*# Razonamiento sobre experiencia (no solo imitación humana)
* El lenguaje humano probablemente NO es el "computador" óptimo para razonar; modos de pensamiento no-humanos (simbólicos, continuos, diferenciables) pueden ser más eficientes

== Resumen detallado ==
Silver y Sutton argumentan que la IA está transitando de una era dominada por aprender de datos generados por humanos a una donde los agentes aprenden principalmente de su propia experiencia interactuando con entornos. Los LLMs entrenados con datos humanos han logrado una generalidad impresionante, pero se están acercando a un techo: las fuentes de datos de alta calidad se están agotando.

Los autores esbozan cuatro características de esta nueva era. Los agentes existirán en flujos continuos de experiencia, interactuarán a través de acciones ricas más allá del texto, las recompensas estarán fundamentadas en señales del entorno (métricas de salud, resultados de exámenes, niveles de CO2), y los agentes desarrollarán métodos de [[Razonamiento en LLMs|razonamiento]] no-humanos.

El paper reconoce riesgos de seguridad (menor intervención humana, menor interpretabilidad) pero argumenta que el aprendizaje experiencial también ofrece beneficios: los agentes pueden adaptarse a cambios ambientales y las funciones de recompensa pueden corregirse a través de la experiencia.

== Citas notables ==
{{Cita|En vez de enseñarle explícitamente al modelo cómo resolver un problema, simplemente le proporcionamos los incentivos correctos, y autónomamente desarrolla estrategias avanzadas de resolución de problemas.|DeepSeek, citado en p. 2}}

{{Cita|Es altamente improbable que el lenguaje humano proporcione la instancia óptima de un computador universal. Mecanismos de pensamiento más eficientes seguramente existen.|p. 5}}

== Conceptos referenciados ==
* [[Aprendizaje por refuerzo]] — mecanismo central del aprendizaje experiencial
* [[Razonamiento en LLMs]] — la limitación del razonamiento basado en lenguaje humano

== Véase también ==
* [[La Ilusión de la Ilusión de Pensar]] — sobre las limitaciones percibidas vs reales del razonamiento
* [[Pensamiento crítico]] — implicaciones del cambio de paradigma para trabajadores del conocimiento

[[Categoría:Fuentes]][[Categoría:IA]][[Categoría:Aprendizaje por refuerzo]]

Pensamiento crítico

2026-04-05T23:06:30Z

Freddy: LLM Wiki ingest

'''Pensamiento crítico''' son las actividades cognitivas realizadas para asegurar calidad, verificar información y hacer juicios reflexivos — particularmente relevante en el contexto del trabajo del conocimiento asistido por IA.

== Visión general ==
El pensamiento crítico abarca un rango de actividades cognitivas desde recordar hechos y organizar ideas hasta analizar, sintetizar y evaluar información. La taxonomía de Bloom (1956) proporciona un marco ampliamente usado con seis niveles: Conocimiento, Comprensión, Aplicación, Análisis, Síntesis y Evaluación.

En el contexto de GenAI, el estudio de Microsoft Research (2025) con 319 trabajadores del conocimiento reveló una '''paradoja de confianza''': mayor confianza en la IA correlaciona con ''menos'' pensamiento crítico, mientras que mayor autoconfianza correlaciona con ''más'' pensamiento crítico.

== La paradoja de confianza ==
{| class="wikitable"
|-
! Factor !! Efecto en pensamiento crítico !! Esfuerzo percibido
|-
| Mayor confianza en GenAI || Menos pensamiento crítico || Menos esfuerzo
|-
| Mayor autoconfianza || Más pensamiento crítico || Más esfuerzo
|}

== Tres desplazamientos de esfuerzo con GenAI ==
# '''Recopilación → Verificación''': GenAI automatiza la búsqueda pero el trabajador debe verificar
# '''Resolución → Integración''': GenAI genera soluciones pero hay que integrarlas al contexto
# '''Ejecución → Custodia''': el trabajador pasa de producir a supervisar (''task stewardship'')

== Inhibidores del pensamiento crítico ==
* '''Barreras de conciencia''': sobre-confianza en la IA, tareas percibidas como triviales
* '''Barreras de motivación''': presión de tiempo, no está en el alcance del trabajo
* '''Barreras de habilidad''': no poder inspeccionar o mejorar la salida de IA

== Fuentes ==
* [[Impacto de GenAI en el Pensamiento Crítico]] (2025) — estudio empírico con 319 trabajadores, 936 ejemplos de uso de GenAI

== Conceptos relacionados ==
* [[Sobredependencia en IA]] — aceptar salida de IA sin reflexión adecuada
* [[Descarga cognitiva]] — delegar tareas de pensamiento a herramientas externas

[[Categoría:Conceptos]][[Categoría:IA]][[Categoría:Trabajo del conocimiento]]

Aprendizaje por refuerzo

2026-04-05T23:06:27Z

Freddy: LLM Wiki ingest

'''Aprendizaje por refuerzo''' (''Reinforcement Learning'', RL) es un paradigma donde los agentes aprenden a alcanzar objetivos por ensayo y error, adaptando su comportamiento a partir de la experiencia de interactuar con su entorno.

== Visión general ==
El aprendizaje por refuerzo es uno de los tres paradigmas principales de aprendizaje automático. Un agente RL aprende tomando acciones en un entorno y recibiendo recompensas o penalizaciones. El objetivo es aprender una política que maximice la recompensa acumulada.

RL tiene una rica historia que va desde el aprendizaje por diferencias temporales (Sutton, 1988) hasta avances con deep RL como DQN (Atari, 2015), AlphaGo (2016) y AlphaZero (2017). Estos sistemas demostraron que los agentes RL pueden descubrir estrategias desconocidas para los humanos.

== Aspectos clave ==
* '''Aprendizaje por diferencias temporales''': estimar recompensas futuras a partir de experiencia parcial
* '''Exploración vs explotación''': equilibrar probar acciones nuevas vs usar las conocidas
* '''Modelos del mundo''': aprender a predecir consecuencias de acciones (arquitectura Dyna)
* '''RLHF''': Aprendizaje por Refuerzo a partir de Retroalimentación Humana — el puente entre RL y LLMs
* '''Recompensas fundamentadas''': usar señales del mundo real (métricas de salud, resultados de exámenes) en vez de juicio humano

== Fuentes ==
* [[La Era de la Experiencia]] (2025) — Silver & Sutton argumentan que RL impulsará la próxima era de la IA

== Conceptos relacionados ==
* [[Aprendizaje experiencial]] — el paradigma más amplio que RL posibilita
* [[Modelos del mundo]] — modelos predictivos aprendidos del entorno

== Preguntas abiertas ==
* ¿Puede RL escalar a problemas verdaderamente abiertos del mundo real (no solo juegos/simulaciones)?
* ¿Cómo definir funciones de recompensa seguras y alineadas para agentes autónomos?

[[Categoría:Conceptos]][[Categoría:IA]]

Página principal

2026-04-05T23:05:38Z

Freddy: LLM Wiki ingest

'''LLM Wiki''' es una base de conocimiento personal construida incrementalmente por LLM a partir de fuentes curadas.

Basado en el [https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f concepto LLM Wiki de Andrej Karpathy].

== Conceptos ==
* [[Aprendizaje por refuerzo]] — agentes que aprenden por ensayo y error
* [[Razonamiento en LLMs]] — ¿pueden los LLMs razonar genuinamente?
* [[Pensamiento crítico]] — reflexión cognitiva en trabajo asistido por IA

== Fuentes procesadas ==
* [[La Era de la Experiencia]] — Silver & Sutton (2025)
* [[La Ilusión de la Ilusión de Pensar]] — Opus & Lawsen (2025)
* [[Impacto de GenAI en el Pensamiento Crítico]] — Lee et al., Microsoft Research (CHI'25)

== Estadísticas ==
* Documentos procesados: 3 / ~213
* Última actualización: 5 de abril de 2026

[[Categoría:Índice]]