Un modelo de IA predice el riesgo de más de 1.000 enfermedades con hasta dos décadas de antelación

Un equipo internacional de investigadores ha presentado en Nature un modelo generativo de inteligencia artificial capaz de estimar el riesgo a largo plazo de más de 1.000 enfermedades y anticipar cambios en la salud humana con más de una década de antelación. El sistema, desarrollado por el Laboratorio Europeo de Biología Molecular (EMBL) —a través de su Instituto Europeo de Bioinformática (EMBL-EBI)—, el Centro Alemán de Investigación Oncológica (DKFZ) y la Universidad de Copenhague, se entrenó con datos anonimizados de 400.000 participantes del UK Biobank y se validó con 1,9 millones de historias clínicas del Registro Nacional de Pacientes de Dinamarca.

Los autores lo definen como una prueba de concepto que demuestra que la IA puede aprender los patrones temporales de la salud humana y generar pronósticos probabilísticos útiles para investigación biomédica y planificación sanitaria. No está listo para uso clínico, pero abre vías concretas para estudiar la historia natural de las enfermedades, evaluar el impacto de estilos de vida y comorbilidades y simular resultados cuando los datos reales son escasos o difíciles de compartir.


La idea clave: aprender la “gramática” de la salud

El modelo adopta conceptos algorítmicos similares a los de los grandes modelos de lenguaje (LLM). Como un LLM aprende la sintaxis de una frase, esta IA aprende la “gramática” de las historias clínicas: secuencias de eventos (diagnósticos, ingresos, tratamientos, hábitos como el tabaquismo) y, sobre todo, el tiempo entre esos eventos. A partir de ese orden y esos intervalos, estima el riesgo y la ventana temporal en la que podrían aparecer futuras condiciones.

“Nuestro modelo es un proof-of-concept: muestra que la IA puede aprender patrones de salud a largo plazo y generar predicciones significativas”, explica Ewan Birney (EMBL). “Si entendemos cuándo emergen los riesgos, podremos planificar intervenciones tempranas: es un paso hacia una sanidad más personalizada y preventiva”.


Qué pronostica bien… y qué no

Como los partes meteorológicos, el sistema no ofrece certezas, sino probabilidades calibradas. Sus estimaciones encajan bien a nivel poblacional con la incidencia observada por edad y sexo en cohortes no utilizadas para el entrenamiento.

  • Mejor desempeño: patologías con trayectorias clínicas claras y consistentes, como algunos cánceres, infarto de miocardio o septicemia.
  • Peor desempeño: condiciones fuertemente moduladas por eventos vitales impredecibles, por ejemplo trastornos de salud mental o complicaciones del embarazo.

La precisión es mayor a corto plazo (meses–pocos años) que en horizontes muy largos, de forma análoga a la meteorología.


Un ejemplo: riesgo de infarto en la vida real

Aplicado a la cohorte del UK Biobank:

  • En hombres de 60–65 años, el riesgo anual de infarto oscila entre 4 por 10.000 y 1 por 100, condicionado por diagnósticos previos y factores de estilo de vida.
  • En mujeres el riesgo medio es menor, pero con distribución similar.
  • El riesgo aumenta con la edad en ambos sexos.

Estos intervalos ilustran la naturaleza del modelo: no determina el destino individual, pero sí el gradiente de riesgo y su evolución temporal para distintos perfiles.


Entrenado y probado en dos sistemas sanitarios distintos

Una de las fortalezas del trabajo es su escala y diversidad de fuentes:

  • Entrenamiento: 400.000 historias clínicas anonimizadas del UK Biobank (principalmente personas de 40 a 60 años).
  • Validación: 1,9 millones de registros del Registro Nacional de Pacientes de Dinamarca.

Que el modelo funcione en sistemas sanitarios independientes sugiere robustez y transferibilidad de la aproximación, crucial si se aspira a apoyo a decisiones o a planificación en diferentes países.


Qué puede aportar ya (sin entrar en clínica)

Aunque no está listo para uso clínico, los investigadores destacan tres aplicaciones inmediatas en investigación y salud pública:

  1. Comprender trayectorias de enfermedad: modelar progresión y puntos de inflexión (por ejemplo, qué eventos anteceden a un sepsis o a un infarto).
  2. Cuantificar el papel del estilo de vida y comorbilidades en el riesgo a largo plazo.
  3. Generar pacientes sintéticos para simular escenarios (útil cuando los datos reales son difíciles de compartir por privacidad o falta de acceso).

En el medio plazo, herramientas similares —entrenadas con datos más representativos— podrían ayudar a identificar precozmente a pacientes de alto riesgo, priorizar cribados y personalizar prevención, siempre bajo marcos regulatorios y validación clínica estrictos.


Limitaciones: sesgos, cobertura y calibración

Los autores son claros al acotar el alcance:

  • Cobertura etaria: al estar el UK Biobank centrado en edades de 40–60 años, infancia y adolescencia quedan subrepresentadas.
  • Demografía: grupos étnicos minoritarios también están infrarrepresentados, lo que introduce sesgos.
  • Interpretación: el modelo está calibrado a nivel poblacional; trasladarlo al individuo exige cautela y validación adicional.

Estas limitaciones no invalidan el enfoque, pero sí condicionan su uso y marcan la agenda para futuros desarrollos: más diversidad de datos, recalibración por regiones y evaluaciones externas.


Ética y privacidad: datos anonimizados, análisis seguro

El proyecto se diseñó bajo estrictos estándares éticos:

  • Consentimiento informado de los participantes del UK Biobank.
  • Acceso a datos daneses conforme a la normativa nacional, que obliga a mantener los datos dentro de Dinamarca.
  • Uso de sistemas virtuales seguros para analizar sin mover datos entre países.

El objetivo es demostrar que es posible aprender de grandes poblaciones sin vulnerar la privacidad, una condición indispensable para la aceptación social de estas tecnologías.


Un nuevo mapa para la medicina preventiva

La posibilidad de estimar riesgos y tiempos de aparición de enfermedades a gran escala sugiere impactos prácticos:

  • Planificación sanitaria: con poblaciones que envejecen y cronicidades al alza, anticipar demandas futuras puede optimizar recursos (consultas, camas, UCI, fármacos).
  • Estrategias de cribado: ajustar cuándo y a quién se invita a pruebas diagnósticas, alineando riesgo estimado y beneficio esperado.
  • Prevención personalizada: diseñar intervenciones tempranas (por ejemplo, cesación tabáquica, control de lípidos, manejo de comorbilidades) en el momento oportuno.

“Es el inicio de una nueva forma de entender la salud y la progresión de la enfermedad”, resume Moritz Gerstung (DKFZ). “Aprendiendo de grandes poblaciones, estos modelos podrían ayudar a personalizar la atención y anticipar necesidades a gran escala”.


Qué diferencia a este modelo de otros enfoques de IA en salud

  • Secuencial y temporal: no es un clasificador estático; modela la historia clínica como una secuencia y aprende cuándo importan los eventos.
  • Probabilístico y calibrado: entrega tasas/raíces de riesgo a lo largo del tiempo, con calibración poblacional.
  • Escalable y transferible: se entrena en un país y se prueba con éxito en otro, algo poco frecuente en modelos de esta escala.

Qué queda por hacer antes de la cama del paciente

Para que un sistema así llegue a la práctica clínica se requiere:

  1. Validaciones prospectivas y ensayos que midan impacto en resultados clínicos.
  2. Recalibración y auditorías por región, edad y grupo étnico, con equidad como requisito.
  3. Integración con historias clínicas electrónicas (HCE) y flujos asistenciales sin añadir carga a profesionales.
  4. Gobernanza y regulación: criterios de explicabilidad, gestión de sesgos y responsabilidades en la toma de decisiones.

Conclusión

El trabajo de EMBL, DKFZ y la Universidad de Copenhague no es un “oráculo” de la medicina, pero sí un hito metodológico: demuestra que la IA generativa, inspirada en los LLM, puede aprender la dinámica de la salud y anticipar riesgos a lo largo de décadas. Con privacidad por diseño, calibración poblacional y validaciones cruzadas en dos sistemas sanitarios, el estudio ofrece una base sólida para avanzar hacia una medicina más preventiva, personalizada y eficiente. La prudencia clínica y la regulación marcarán el ritmo, pero la dirección ya está trazada.


Preguntas frecuentes (FAQ)

¿Qué predice exactamente el modelo de IA del EMBL/DKFZ?
Estima probabilidades a lo largo del tiempo (no certezas) para más de 1.000 enfermedades, incluyendo cuándo podrían aparecer, a partir de la secuencia y tiempos entre eventos médicos y factores de estilo de vida.

¿Con qué datos se entrenó y validó?
Con 400.000 historias anonimizadas del UK Biobank (Reino Unido) y 1,9 millones del Registro Nacional de Pacientes de Dinamarca, sin mover datos entre países y bajo estrictos controles éticos.

¿Sirve ya para que un médico decida tratamientos?
No. Es una prueba de concepto. Puede apoyar investigación y planificación, pero para uso clínico se necesitan más validaciones, recalibraciones y marcos regulatorios.

¿Para qué enfermedades funciona mejor?
Para condiciones con trayectorias clínicas consistentes (ciertos cánceres, infarto, sepsis). Es menos fiable para cuadros modulados por eventos imprevisibles (salud mental, complicaciones del embarazo).

¿Qué implicaciones tiene para la salud pública?
Puede anticipar necesidades de recursos, optimizar cribados y priorizar prevención en grupos de mayor riesgo, contribuyendo a sistemas más eficientes en contextos de envejecimiento y cronicidad.

¿Cómo se garantiza la privacidad?
Todos los datos fueron anonimizados; se usaron entornos seguros y el acceso respetó normas nacionales (por ejemplo, los datos daneses no pueden salir del país). Hubo consentimiento informado en el UK Biobank.


Fuente: EMBL-EBI / DKFZ / Universidad de Copenhague; publicación en Nature (Shmatko et al., 17/09/2025, doi: 10.1038/s41586-025-09529-3).

Scroll al inicio