Un estudio revela que las herramientas de codificación con IA pueden ralentizar a los desarrolladores más experimentados

Un ensayo controlado con desarrolladores de código abierto cuestiona la promesa universal de productividad acelerada por IA en programación profesional

Una nueva investigación publicada por la organización sin ánimo de lucro METR (Model Evaluation & Threat Research) pone en entredicho una de las grandes promesas de la Inteligencia Artificial en el mundo del desarrollo de software: que las herramientas de codificación asistida por IA, como GitHub Copilot o Cursor, hacen a todos los programadores más productivos. En un experimento cuidadosamente diseñado, el resultado fue, para muchos, sorprendente: en lugar de acelerar el trabajo, la IA lo ralentizó.

Resultados inesperados: un 19 % más lentos con IA

El estudio, titulado «Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity», reclutó a 16 desarrolladores veteranos de proyectos de código abierto ampliamente utilizados (con una media de 23.000 estrellas en GitHub). Estos profesionales, con más de 5 años de experiencia en sus respectivos repositorios, completaron 246 tareas reales. Cada tarea fue asignada aleatoriamente a dos condiciones: con o sin asistencia de herramientas de IA, principalmente Cursor Pro y modelos como Claude 3.5 y 3.7 de Anthropic.

La hipótesis de partida era optimista: los propios desarrolladores estimaron que la IA reduciría su tiempo de trabajo en un 24 %. Pero los resultados empíricos mostraron lo contrario: en promedio, los desarrolladores tardaron un 19 % más cuando usaron IA. Ni siquiera después de completar las tareas cambiaron su percepción: seguían creyendo que la IA los había ayudado a ir más rápido, cuando los datos decían lo contrario.

¿Por qué sucede esto?

Los investigadores analizaron 143 horas de grabaciones de pantalla para entender cómo se usaba el tiempo. Detectaron que cuando se usaba IA:

  • Se reducía el tiempo escribiendo código o buscando información.
  • Aumentaba el tiempo escribiendo prompts, esperando respuestas del modelo y revisando el código generado por IA.
  • Parte del código propuesto era rechazado o necesitaba correcciones importantes antes de ser útil.

De hecho, menos del 44 % del código generado por IA fue aceptado por los desarrolladores sin modificaciones sustanciales, y un 75 % revisó cada línea propuesta antes de integrarla.

Factores clave del retraso

Según los autores del estudio, varios factores específicos del entorno contribuyeron al efecto de ralentización:

  • Altísima familiaridad con el código: los desarrolladores conocían tan bien sus repositorios que la IA aportaba poco valor añadido.
  • Repositorios complejos y grandes: con más de 1 millón de líneas de código, los modelos tenían dificultades para navegar o sugerir cambios acertados sin contexto.
  • Conocimiento tácito: muchas decisiones dependen de normas no documentadas, prácticas internas o consideraciones de compatibilidad que la IA no puede anticipar.
  • Expectativas poco realistas: incluso tras experimentar con la IA, los participantes seguían convencidos de que les había ayudado, pese a los datos objetivos en contra.

¿Se trata de una excepción?

El estudio no descarta que las herramientas de codificación con IA sean útiles en otros contextos. De hecho, investigaciones previas muestran que desarrolladores menos experimentados o proyectos nuevos pueden beneficiarse más de estas tecnologías. Los autores subrayan que este experimento se centró en un caso concreto: desarrolladores expertos trabajando en proyectos complejos que conocen profundamente.

Además, la investigación se llevó a cabo entre febrero y junio de 2025. Dada la velocidad del progreso en el campo de la IA, los resultados podrían no ser los mismos hoy. También se señala que futuras mejoras en los modelos, ajustes más finos o técnicas de prompting más avanzadas podrían revertir el efecto observado.

¿Y ahora qué?

A pesar de que el 69 % de los desarrolladores siguió usando Cursor tras el estudio, los investigadores hacen un llamado a la cautela: “La industria no debería asumir que las herramientas de IA son automáticamente beneficiosas en todos los contextos”. El informe sugiere que el entusiasmo por la IA podría estar generando expectativas poco realistas y que se necesita más investigación en entornos reales.

El estudio completo está disponible en la web de METR y se presentará en un evento organizado por TechCrunch en Boston el 15 de julio.

Conclusión: la promesa de productividad acelerada por IA no es universal. En determinados entornos, como los repositorios maduros y bien conocidos por sus mantenedores, la IA no sólo no ayuda, sino que puede ser un obstáculo. La clave parece estar en cuándo, cómo y quién usa estas herramientas. La “magia” de la IA, al menos en codificación profesional, aún requiere algo más que buenos prompts.

Scroll al inicio