CANYA, la inteligencia artificial española que traduce el lenguaje oculto de las proteínas “pegajosas”

Desarrollada por el IBEC y el CRG, la nueva IA explicable permite predecir la agregación de proteínas asociada al alzhéimer y a más de 50 enfermedades humanas, con aplicaciones prometedoras en biomedicina y producción farmacéutica.

Una nueva inteligencia artificial bautizada como CANYA acaba de marcar un hito en el campo de la bioingeniería. Diseñada para descifrar el lenguaje secreto de las proteínas, esta herramienta desarrollada en España por el Instituto de Bioingeniería de Cataluña (IBEC) y el Centro de Regulación Genómica (CRG) consigue predecir cuándo y por qué ocurre la agregación de proteínas, un fenómeno biológico clave en enfermedades como el alzhéimer, el párkinson o la esclerosis lateral amiotrófica. Los resultados del estudio se han publicado en la revista Science Advances.

Un enfoque explicable para un problema complejo

A diferencia de muchos modelos de IA tipo «caja negra», CANYA ha sido construida bajo los principios de la IA explicable, lo que permite comprender los motivos químicos que provocan o impiden la formación de agregados proteicos. Este diseño permite que los científicos no solo reciban predicciones, sino también argumentos biológicamente interpretables detrás de cada decisión del modelo.

“CANYA puede ayudar a guiar los esfuerzos para diseñar anticuerpos y enzimas que tengan menos probabilidades de adherirse y reducir los contratiempos en el proceso de fabricación”, afirma la Dra. Benedetta Bolognesi (IBEC).

De proteínas sintéticas a patrones ocultos

El proyecto parte de un ambicioso experimento: crear desde cero 100.000 fragmentos de proteínas sintéticas de 20 aminoácidos, probados en células de levadura vivas para detectar su capacidad de formar agregados. Alrededor del 22 % de estos fragmentos causaron aglomeración, permitiendo generar el mayor conjunto de datos de este tipo jamás recopilado.

“La evolución ha explorado solo una fracción de todas las secuencias posibles. Con este enfoque hemos ampliado el universo conocido del comportamiento de agregación”, explica el Dr. Mike Thompson (CRG).

Este volumen de datos permitió entrenar un modelo híbrido de convolución y atención, que toma prestados principios tanto del análisis de imágenes como de la traducción automática. Así, CANYA escanea cadenas de aminoácidos en busca de patrones locales (como haría un modelo de visión artificial con una imagen) y valora su importancia global dentro de la proteína (como un traductor que identifica frases clave).

Resultados clave: nuevas reglas, más precisión

La herramienta demostró que regiones hidrofóbicas (repelentes al agua) suelen promover la agregación, y que la posición de ciertos motivos en la secuencia afecta a su efecto. Incluso detectó que algunos aminoácidos cargados, tradicionalmente considerados protectores, pueden favorecer la agregación en ciertos contextos, una revelación que abre nuevas hipótesis sobre el plegamiento y la estabilidad de proteínas.

A pesar de su carácter explicable, CANYA supera en un 15 % a los modelos anteriores en precisión de predicción, lo que demuestra que la transparencia no tiene por qué comprometer el rendimiento.

Aplicaciones: de la neurociencia a la biotecnología

Aunque el impacto a largo plazo será relevante en la investigación de enfermedades neurodegenerativas, el potencial inmediato de CANYA reside en la mejora del desarrollo de fármacos, ya que muchas terapias actuales se basan en proteínas cuya eficacia se ve comprometida por la agregación no deseada.

“Si una proteína terapéutica comienza a agregarse, los lotes pueden fallar. CANYA permite anticipar y evitar esos errores antes de llegar a la producción”, explica la Dra. Bolognesi.

El sistema podría usarse también en biología sintética, para diseñar proteínas personalizadas con menor riesgo de agregación, o incluso en ingeniería de enzimas industriales, donde la estabilidad estructural es crítica.

Próximos pasos: más datos, más predicción

Por ahora, CANYA actúa como un clasificador binario (predice si habrá o no agregación). Sin embargo, el equipo trabaja para que en el futuro pueda estimar también la velocidad de agregación, un parámetro crucial en patologías neurodegenerativas, donde no solo importa si hay agregación, sino cuándo ocurre.

“Hay 1.024 quintillones de posibles fragmentos de 20 aminoácidos. Hemos empezado con solo 100.000. Aumentar esta base de datos nos permitirá entender mejor las reglas fundamentales de las proteínas”, apunta la Dra. Bolognesi.

Ciencia de frontera made in Barcelona

El estudio fue liderado por los equipos de Ben Lehner y Benedetta Bolognesi, con la participación del Instituto Wellcome Sanger, el Cold Spring Harbor Laboratory y financiación de la Fundación “la Caixa”, el Consejo Europeo de Investigación y el Ministerio de Ciencia e Innovación.

“Este proyecto demuestra cómo la combinación de datos a gran escala con IA puede acelerar la investigación de forma rentable”, afirma el Dr. Lehner.

En definitiva, CANYA no solo da un paso decisivo en la comprensión de enfermedades humanas, sino que también establece un nuevo paradigma de IA explicable en biología, con un impacto potencial en medicina, farmacología, industria y ciencia básica.

Fuente: IBEC Barcelona

Scroll al inicio