La tecnología de transcripción Whisper, de OpenAI, lanzada en septiembre como herramienta de código abierto para la transcripción de audio en múltiples idiomas, está generando preocupación en el sector de la salud. Más de 30.000 profesionales médicos y 40 sistemas de salud han integrado Whisper en sus procesos para transcribir reuniones con pacientes. Sin embargo, investigadores y expertos en ingeniería han detectado una preocupante tendencia en el modelo: la aparición de alucinaciones o errores graves de interpretación en las transcripciones.
A pesar de haber sido entrenado con más de 680.000 horas de datos de audio provenientes de la web, Whisper ha mostrado una sorprendente inexactitud en un gran número de casos. Un investigador descubrió que ocho de cada diez transcripciones contenían errores, mientras que otro reportó que la mitad de más de 100 horas de transcripciones presentaban información incorrecta. Un desarrollador observó alucinaciones en casi todas las 26.000 transcripciones que generó, lo cual plantea serias dudas sobre la fiabilidad del sistema.
Errores graves: desde enfermedades inventadas hasta frases sin sentido
Entre los problemas reportados, se incluyen frases inventadas con contenido violento o incluso racista, enfermedades que no existen y oraciones sin sentido que parecen surgir de silencios en el audio. En algunas transcripciones, aparecen frases típicas de plataformas como YouTube, como “Gracias por ver”, lo cual resulta desconcertante en un contexto clínico.
Aunque las alucinaciones en modelos de IA son un fenómeno conocido, como el caso reciente del chatbot Gemini de Google que “inventó” una receta de pizza con pegamento, es inusual en una herramienta de transcripción que debería limitarse a seguir el audio grabado. Sin embargo, OpenAI ha agradecido los comentarios de los investigadores y ha prometido mejorar la precisión del modelo, especialmente para reducir las alucinaciones. La compañía también ha subrayado que Whisper no está diseñado para usarse en “contextos de toma de decisiones de alto riesgo”.
El riesgo en el entorno médico
Los errores en las transcripciones representan un riesgo considerable en el ámbito de la salud, donde la precisión es crucial. En un entorno donde las decisiones pueden afectar directamente el diagnóstico o tratamiento de un paciente, la inexactitud de Whisper ha encendido las alarmas entre los profesionales médicos que dependen de la herramienta para documentar de manera efectiva sus interacciones clínicas.
La situación pone en el centro del debate la necesidad de mayor regulación y cautela en el uso de IA en contextos médicos. Por ahora, la advertencia de OpenAI invita a los usuarios a emplear Whisper de forma complementaria y a no confiar únicamente en las transcripciones generadas, a la espera de futuras actualizaciones que puedan mitigar estos errores.
El desafío que enfrenta OpenAI ilustra las complejidades de implementar IA en áreas sensibles, dejando claro que, aunque la tecnología promete facilitar el trabajo en el sector salud, aún existen barreras significativas para su implementación segura y efectiva.