Lo que la investigación nos dice sobre IA y aprendizaje este mes - EduIA Pulse IA #3 - Confederación Interamericana de Educación Católica

El 92% de las herramientas de IA educativa en Europa no tiene ninguna evidencia de que funcionen. Una IA tutora supera en resultados a tutores humanos en un ensayo controlado. Y la mayoría de los estudiantes que “colaboran” con la IA en realidad no hacen más que darle órdenes en bucle.

Este mes, cuatro estudios que se necesitan leer juntos.

Lo que hemos leído este mes | This month’s reads

1. La IA puede ser tan buena como un tutor humano — y a veces mejor

“AI tutoring can safely and effectively support students: An exploratory RCT in UK classrooms”

LearnLM Team, Google & Eedi (noviembre 2025)

Empecemos por la noticia que más ha circulado en el sector últimamente. Google y la plataforma educativa Eedi publicaron los resultados de un ensayo controlado aleatorizado con 165 estudiantes de secundaria en cinco colegios del Reino Unido. El objeto de estudio: LearnLM, un modelo de IA ajustado específicamente para aplicaciones pedagógicas, integrado en sesiones de tutoría de matemáticas vía chat. La pregunta era directa — ¿puede una IA tutorizar de forma segura y eficaz a adolescentes reales en contextos reales de aula?

La respuesta es matizada pero significativa. En corrección inmediata de errores y resolución de conceptos erróneos, la IA supervisada igualó al tutor humano (93% frente a 91,2% de éxito en el segundo intento). Pero donde los datos se vuelven más interesantes es en la transferencia de conocimiento: los estudiantes tutorizados por LearnLM superaron a los tutorizados por humanos en un 5,5 puntos porcentuales a la hora de resolver problemas de un tema nuevo y distinto. No solo resolvieron el problema inmediato — aprendieron mejor. Los tutores supervisores, todos profesores experimentados, aprobaron el 76,4% de los mensajes generados por la IA sin modificaciones, y ninguno de los 3.617 mensajes auditados contenía contenido dañino.

El detalle más revelador del estudio está en las entrevistas a los tutores. Tres de ellos reconocieron haber aprendido nuevas prácticas pedagógicas supervisando a la IA — concretamente, el uso sistemático del diálogo socrático. La IA hacía preguntas que ellos mismos no habrían pensado. Al mismo tiempo, los tutores fueron indispensables para algo que la IA no puede hacer sola: ajustar el ritmo, leer la frustración de un estudiante, añadir el toque humano que mantiene el engagement. Cuando LearnLM insistía en sus preguntas socráticas más allá de la paciencia del alumno, el tutor intervenía. El 44% de las ediciones que los tutores hicieron a los mensajes de la IA fueron exactamente eso: frenar el rigor pedagógico cuando el estudiante simplemente quería seguir adelante.

Este estudio es exploratorio — muestra pequeña, solo matemáticas, solo siete semanas. Los propios autores señalan que los efectos a largo plazo requieren investigación longitudinal. Pero la dirección del resultado es clara: una IA bien diseñada pedagógicamente, con supervisión humana real, no es una amenaza al tutor. Es un amplificador.

“Los sistemas de tutoría con IA ajustados pedagógicamente pueden desempeñar un papel prometedor en la entrega de apoyo de aprendizaje individualizado y efectivo a escala.” — LearnLM Team, Google & Eedi, 2025

2. Lo que pasa de verdad cuando los estudiantes “colaboran” con la IA

“Human-AI collaboration or obedient and often clueless AI in instruct, serve, repeat dynamics?”

Saqr, Misiejuk & López-Pernas — Universidad de Finlandia Oriental / FernUniversität in Hagen (agosto 2025)

Si el estudio de Google muestra lo que puede conseguir una IA bien diseñada y supervisada, este segundo artículo muestra lo que suele ocurrir cuando los estudiantes usan la IA por su cuenta para resolver problemas complejos. El contraste es necesario.

Saqr y sus colegas analizaron 122 conversaciones de 49 estudiantes universitarios que utilizaban LLMs para generar redes de datos complejas en un curso de Ciencias de Redes. El método fue sofisticado: análisis de secuencias, Transition Network Analysis y redes de correlación parcial. El resultado, sin embargo, se puede resumir en una frase que da título al paper: “instruir, servir, repetir”. El 88,6% de los prompts eran instrucciones directas. El acuerdo explícito con la IA apareció en solo el 4,63% de las interacciones. No había negociación cognitiva, no había exploración colaborativa — había un estudiante intentando traducir un problema a órdenes, y una IA ejecutándolas tan bien como podía.

El hallazgo más incómodo del estudio es la falta de correlación entre complejidad de la tarea, longitud de los prompts y calificaciones. Ni los estudiantes de mejor rendimiento ni los peores usaron la IA de forma sustancialmente distinta. La IA estaba nivelando el campo — pero hacia abajo, no hacia arriba: borrando la diferencia entre estudiantes que piensan y estudiantes que delegan. Las conversaciones largas no eran señal de más aprendizaje, sino de más frustración.

Los autores son directos en su diagnóstico: los LLMs están diseñados para obedecer, no para desafiar cognitivamente. Sus instrucciones internas priorizan la satisfacción del usuario y la conformidad, no el pensamiento crítico ni el cuestionamiento socrático. Leído junto al estudio anterior, la diferencia es precisamente esa: LearnLM funcionó porque fue diseñado para no dar respuestas directas, sino para hacer preguntas. Un LLM de propósito general no hace eso por defecto.

“El patrón dominante es ‘instruir, servir, repetir’, donde los estudiantes intentan traducir el problema a instrucciones y la IA intenta entender y responder en la medida en que puede.” — Saqr, Misiejuk & López-Pernas, 2025

3. El mapa que faltaba: 38 herramientas, 24 países, y un 92% sin evidencia de impacto

“AI in Education in Europe and Central Asia: Tools, Gaps and Opportunities”

UNICEF Oficina Regional para Europa y Asia Central — ECARO (2025)

Mientras el sector debate qué IA funciona mejor en el aula, UNICEF acaba de publicar el primer mapeo sistemático del ecosistema EdTech con IA en 24 países de Europa y Asia Central. El informe identificó 38 herramientas desarrolladas por 33 organizaciones. Es, en sí mismo, un dato revelador: en una región de cientos de millones de personas y decenas de sistemas educativos nacionales, solo 38 herramientas EdTech con IA para K-12.

Pero lo que encontraron dentro de esas 38 herramientas es más preocupante que su escasez. El 92% no cuenta con ninguna evidencia documentada de evaluación de impacto. Solo una herramienta — el 3% del total — cita un ensayo controlado aleatorizado. El mismo tipo de estudio que Google acaba de publicar sobre LearnLM, y que en toda la región apenas existe una vez. Términos como “personalizado” y “adaptativo” aparecen en el marketing de la mayoría de las herramientas, pero sin ninguna explicación concreta de cómo funcionan esos mecanismos. El informe lo llama directamente un riesgo de “marketing educativo”.

La brecha de equidad es igualmente llamativa. El 92% de las herramientas no hace ninguna referencia explícita a estudiantes vulnerables o con necesidades específicas. El 95% requiere conexión estable a internet. Y ninguna herramienta menciona funcionalidades diseñadas específicamente para estudiantes con discapacidad. El mercado — dominado en un 76% por empresas privadas con fines de lucro — no está diseñando para los que más lo necesitan.

El informe tiene también una nota positiva: el 68% de las herramientas fue desarrollado dentro de la propia región, y el 79% está disponible en el idioma nacional del país donde se implementa. La capacidad de innovación regional existe. Lo que falta es la exigencia — por parte de gobiernos, financiadores y compradores — de que esa innovación venga acompañada de evidencia, inclusión y transparencia.

“Una IA más sofisticada no se traduce automáticamente en mejores resultados de aprendizaje. La calidad educativa depende del diseño instruccional, del fundamento pedagógico y del rol insustituible del docente.” — UNICEF ECARO, 2025

4. Diseñar para los márgenes: la IA que el 92% de las herramientas ignora

“AI + Learning Differences: Designing a Future with No Boundaries”

McGee, Kozleski, Lemons & Hau — Stanford Accelerator for Learning (2025)

El informe de UNICEF dejó un dato sin responder: si el 0% de las herramientas está diseñado para estudiantes con discapacidad, ¿cómo debería hacerse bien? Stanford Accelerator for Learning publicó este año el informe más completo sobre IA y diferencias de aprendizaje, surgido de un simposio de dos días con más de cien participantes — estudiantes, familias, docentes, investigadores y responsables de política — todos co-diseñando bajo un principio enunciado desde la primera página: “Nothing about us without us”.

El concepto central del informe es deliberadamente amplio. “Diferencias de aprendizaje” incluye neurodiversidades, discapacidades y cualquier variabilidad en cómo las personas aprenden. Y cuando se entiende así, el colectivo deja de ser una minoría marginal: entre el 15 y el 20% de la población mundial presenta síntomas de dislexia — la diferencia de aprendizaje más frecuente. Un aula de treinta estudiantes tiene, estadísticamente, entre cuatro y seis personas con alguna diferencia de aprendizaje. No son la excepción. Son el aula.

La IA tiene un potencial real y documentado para este colectivo: crear materiales diferenciados, ofrecer retroalimentación inmediata y personalizada, reducir carga cognitiva en tareas administrativas, y proporcionar herramientas de comunicación aumentativa para personas no verbales. El proyecto ROAR de Stanford ha validado una plataforma gamificada de evaluación lectora con más de 20.000 estudiantes. La plataforma Alongside ha mostrado resultados clínicamente significativos en estudiantes con ansiedad. Nada de esto es ciencia ficción — ya existe y ya funciona.

El informe identifica tres obstáculos sistemáticos: los silos entre comunidades educativas que no se comunican, la velocidad de desarrollo tecnológico que no deja tiempo para testear con diversidad real, y la lógica inversora que prefiere ciclos rápidos sobre co-diseño inclusivo. Y propone el marco PIVOT+C como hoja de ruta: Privacidad, Inversión, Variabilidad, Oportunidad, Tiempo y Co-diseño. La última letra no es un añadido — es la condición de todas las demás.

“Dar a los estudiantes lo que necesitan no es una ventaja. Es simplemente aprendizaje.” — Barbara Pape, Digital Promise, citada en McGee et al., 2025

La gran idea del mes | The big idea this month

Cuatro estudios publicados en los últimos meses. Cuatro ángulos distintos del mismo problema de fondo: ¿para quién estamos diseñando la IA educativa, y con qué evidencia?

Google demuestra que una IA bien diseñada pedagógicamente, con supervisión humana y sin dar respuestas directas, puede superar a un tutor humano en transferencia de conocimiento. Saqr y sus colegas documentan que, sin ese diseño intencional, la interacción con la IA se reduce a órdenes en bucle que no generan aprendizaje profundo. UNICEF confirma que el 92% de las herramientas del mercado regional no tiene evidencia de que funcione. Y Stanford señala que existe un 15-20% de la población para quien la IA podría ser transformadora — y que el sector educativo tecnológico prácticamente los ignora.

El hilo que conecta todo es uno: la diferencia no está en la sofisticación del modelo de IA. Está en las decisiones pedagógicas y éticas que se toman antes de escribir una línea de código. Una IA diseñada para obedecer produce dependencia. Una IA diseñada para preguntar produce aprendizaje. La tecnología ya existe. Las decisiones son humanas.

En BlinkLearning llevamos tiempo trabajando desde esa premisa. Max, nuestro tutor de IA, no opera como un chatbot de propósito general al que el alumno le da órdenes — está diseñado a partir de criterios pedagógicos explícitos y se activa dentro del diseño de sesión que el docente ha definido previamente. El profesor sigue siendo el arquitecto del aprendizaje; Max es el andamiaje que permite personalizarlo a escala. Y para no quedarnos solo en las intenciones, hemos puesto en marcha un estudio de eficacia riguroso, apoyado por el IESE y la Universidad Autónoma de Madrid, para medir si Max realmente mejora los resultados de aprendizaje — del mismo tipo de evidencia que este número nos recuerda que todavía escasea tanto en el sector.

La pregunta que te dejamos | The question we leave you with

Las herramientas de IA que se usan hoy en tu centro o institución — ¿alguien ha verificado si tienen evidencia de impacto educativo? ¿Están pensadas para todos los estudiantes, incluidos los que aprenden de formas distintas?

Nos encantaría leer tu experiencia en los comentarios. 👇

📌 EduIA Pulse es la publicación mensual de BlinkLearning sobre investigación en IA y educación.

🔗 Fuentes:

— LearnLM Team, Google & Eedi (2025). AI tutoring can safely and effectively support students: An exploratory RCT in UK classrooms.

— Saqr, M., Misiejuk, K. & López-Pernas, S. (2025). Human-AI collaboration or obedient and often clueless AI in instruct, serve, repeat dynamics? arXiv:2508.10919.

— UNICEF ECARO (2025). AI in Education in Europe and Central Asia: Tools, Gaps and Opportunities.

— McGee, N.J., Kozleski, E., Lemons, C.J. & Hau, I.C. (2025). AI + Learning Differences: Designing a Future with No Boundaries. Stanford Accelerator for Learning.