16 de noviembre de 2022

Eduard Porta: "El futuro de la Inteligencia Artificial en biomedicina es brillante"

El Dr. Eduard Porta, líder del grupo de investigación en Inmunogenómica del Cáncer del Instituto de Investigación contra la Leucemia Josep Carreras, ha participado en una iniciativa científica comunitaria para poner en contexto el valor de las predicciones de AlphaFold2, el algoritmo de Deep Mind, la empresa especializada en inteligencia artificial de Google, capaz de determinar la estructura tridimensional de todas las proteínas humanas conocidas. Las conclusiones se han publicado recientemente en la revista especializada Nature Structural Biology.

En esta conversación, el Dr. Porta nos explica la importancia de disponer de estos modelos 3D y nos adelanta que estamos frente a una nueva era en la que las herramientas basadas en la inteligencia artificial serán el nuevo estándar en el laboratorio.

Empecemos por el principio: ¿qué son las proteínas y por qué es importante conocer su estructura tridimensional?

Las proteínas son unas moléculas que se encuentran dentro de las células y que realizan gran parte de las funciones que necesita para vivir. La forma que toman en el espacio es muy importante para realizar estas funciones y dejan de funcionar si no se pliegan correctamente o toman una forma diferente por haber sufrido una mutación. Esto puede dar lugar a enfermedades muy diversas, como el cáncer.

Ya veo... entonces, conocer la estructura 3D de las proteínas puede ayudar a encontrar nuevas terapias. ¿Cómo se ha logrado determinar la estructura 3D del conjunto de proteínas humanas?

¡Pues con muchos años de trabajo! Durante los últimos 70 años se han utilizado tecnologías caras y laboriosas, como la cristalografía de rayos X o la resonancia magnética nuclear. Hasta 2019, se había logrado la estructura de unas 5.000 proteínas, sobre las cerca de 20.000 que existen en el proteoma humano.

Quedaban 15.000, pero hay proteínas que no se pueden determinar con estos procedimientos, por lo que desde hace tiempo se ha buscado la forma de predecir su estructura por medios computacionales. A mediados de los 80 del siglo XX se generaron los primeros algoritmos que funcionaban por similitud: a igual secuencia, similar estructura 3D. Esto aumentó nuestro conocimiento hasta unas 8.000 estructuras, pero todavía faltaban muchas.

Y entonces es cuando Google entra en juego, ¿es así?

Sí, en 2019 Google decide presentarse en el concurso internacional CASP, que se celebra cada dos años y reúne a toda la comunidad dedicada a la predicción computacional de estructuras de proteínas. Su aproximación apuesta por las redes neuronales y la inteligencia artificial y, por sorpresa de todos - es una empresa de servicios informáticos y nunca antes había hecho nada en biología -, gana. ¡Y gana de largo, a mucha distancia del segundo clasificado!

¿Empieza la leyenda de AlphaFold?

Pues no exactamente porque, aunque presentan muchas estructuras nuevas, lo hacen sin mostrar su arma secreta y, por lo tanto, la comunidad de investigadores ven que hay una solución, pero no disponen de la herramienta y es una pequeña decepción. Afortunadamente, en la edición de 2021 vuelven a participar y a ganar, con una herramienta mejorada – AlphaFold2 – capaz de predecir el total de proteínas del proteoma humano y, ahora sí, comparten el código con todo el mundo.

¿Cuál fue la reacción de la comunidad investigadora ante la aparición de todas estas nuevas predicciones estructurales?

Enseguida empezamos a analizar esa gran cantidad de datos que Google ponía a disposición de la comunidad y, de hecho, los primeros análisis se publicaron vía redes sociales. Fue muy rápido y todo el mundo estaba muy emocionado.

Justamente a través de las redes sociales, un conjunto formado por 9 grupos de investigación internacionales muy diversos nos coordinamos para poner en contexto de investigación todos estos datos y ver qué impacto podrían tener, cómo podrían utilizarse y cuáles eran sus limitaciones.

A ver, recapitulamos un momento: ¿por qué hace falta una inteligencia artificial para realizar este trabajo? ¿Dónde está la revolución?

Verás, las proteínas son como un collar formado por aminoácidos, puestos uno tras otro. El hecho de que se estructuren tridimensionalmente implica que aminoácidos de la proteína que pueden estar muy alejados en el collar, puedan estar muy juntos en el espacio y que esto sea relevante para la función. Esta característica – lejos en el collar, pero cerca del espacio – es muy difícil de valorar tanto por el cerebro humano como por los métodos estadísticos tradicionales, que son lineales.

El secreto de AlphaFold2 es justamente un trabajo previo muy bueno para determinar qué parte de los datos es relevante y después aplicarle una inteligencia artificial que trabaja de forma no-lineal, que es especialmente buena resolviendo este tipo de problemas.

Entonces, ¿estamos ante una nueva era donde se trabajará cada vez más con inteligencia artificial? ¿Cuál es el futuro de estas herramientas en la investigación?

¡Su futuro es brillante! Yo creo que será una herramienta más a disposición de los investigadores. Hace 50 años era muy puntero tener a una persona trabajando con biología molecular en el laboratorio, pero hoy es la metodología por defecto. En inteligencia artificial creo que ocurrirá lo mismo: los laboratorios tendrán a sus especialistas en inteligencia artificial, al igual que tienen bioinformáticos y bioquímicos.

Pero la inteligencia artificial es un poco como una “caja negra”, a menudo no sabemos exactamente cómo llega a las conclusiones. ¿Cómo vive esto un científico, que siempre quiere entender bien el proceso deductivo detrás de una conclusión?

Pues a mí, que soy de formación biológica, ¡no me gusta nada! Sin embargo, aunque es cierto que a menudo no entiendes por qué la inteligencia artificial ha llegado a la conclusión que ofrece, existen sistemas más abiertos que te dicen cuáles son los factores que ha tenido en cuenta y te permiten seguir su "razonamiento".

En cualquier caso, a nivel práctico, si una herramienta de inteligencia artificial te proporciona una información útil que beneficia claramente a los pacientes, pues quizás no necesitas entender exactamente cómo ha llegado a ella.

Entiendo… Volviendo a las estructuras de las proteínas: ahora que tenemos el puzle completo, ¿qué nos falta por saber?

¡Las proteínas no trabajan solas! Hay cientos de miles de proteínas trabajando conjuntamente, interaccionando y haciendo sus funciones. Las predicciones de Google no anticipan qué proteínas interaccionan con cuáles, por ejemplo. Tampoco pueden predecir cómo sería una proteína alterada, clave de muchas enfermedades. Y, sobre todo, AlphaFold2 no es capaz de predecir la función de la proteína. Todavía existen muchas proteínas humanas que no tenemos ni idea de lo que hacen. Queda mucho trabajo por hacer y no estamos al final, ¡ni mucho menos!

Vale, hablamos de trabajo: ¿cómo estás utilizando esta nueva información estructural en tu laboratorio?

Con mi equipo hemos identificado las mutaciones más importantes en decenas de miles de pacientes de cáncer y, gracias a las estructuras de AlphaFold2, ahora podemos ponerlas en contexto. Esto nos permite ver cómo grupos de mutaciones aislados, que parecían poco importantes, toman relevancia justamente porque afectan a la estructura en el espacio de las proteínas, algo que no podíamos saber antes de tener las predicciones de Google.

Informaciones de última hora indican que Meta, antes Facebook, también ha entrado en el juego con su algoritmo ESMFold. ¿Qué piensas?

Cierto, ESMFold acaba de anunciar que ha determinado un montón de estructuras nuevas. Parece que su aproximación es más rápida pero menos precisa. Es necesario esperar a ver bien sus resultados para valorarlo, pero esta entrada de otro gigante de la informática en el campo de las estructuras de proteínas refuerza la idea de que el futuro de la inteligencia artificial es brillante y que, en breve serán herramientas de uso común en todos los laboratorios.

Pues parece que sí, que al final el maestro Asimov tenía razón y que la inteligencia artificial acabará trabajando codo con codo con investigadores humanos, para ayudar a entender mejor los aspectos más íntimos de las enfermedades que sufrimos y encontrar remedio. El futuro, difícil de ver es, pero por si acaso, preparémonos para una nueva hornada de Daneel R. Olivaws y Susan Calvins, los legendarios personajes de ciencia ficción... ¿o quizás no tanto?

En esta conversación, el Dr. Porta nos explica la importancia de disponer de estos modelos 3D y nos adelanta que estamos frente a una nueva era en la que las herramientas basadas en la inteligencia artificial serán el nuevo estándar en el laboratorio.

Empecemos por el principio: ¿qué son las proteínas y por qué es importante conocer su estructura tridimensional?

Las proteínas son unas moléculas que se encuentran dentro de las células y que realizan gran parte de las funciones que necesita para vivir. La forma que toman en el espacio es muy importante para realizar estas funciones y dejan de funcionar si no se pliegan correctamente o toman una forma diferente por haber sufrido una mutación. Esto puede dar lugar a enfermedades muy diversas, como el cáncer.

Ya veo... entonces, conocer la estructura 3D de las proteínas puede ayudar a encontrar nuevas terapias. ¿Cómo se ha logrado determinar la estructura 3D del conjunto de proteínas humanas?

¡Pues con muchos años de trabajo! Durante los últimos 70 años se han utilizado tecnologías caras y laboriosas, como la cristalografía de rayos X o la resonancia magnética nuclear. Hasta 2019, se había logrado la estructura de unas 5.000 proteínas, sobre las cerca de 20.000 que existen en el proteoma humano.

Quedaban 15.000, pero hay proteínas que no se pueden determinar con estos procedimientos, por lo que desde hace tiempo se ha buscado la forma de predecir su estructura por medios computacionales. A mediados de los 80 del siglo XX se generaron los primeros algoritmos que funcionaban por similitud: a igual secuencia, similar estructura 3D. Esto aumentó nuestro conocimiento hasta unas 8.000 estructuras, pero todavía faltaban muchas.

Y entonces es cuando Google entra en juego, ¿es así?

Sí, en 2019 Google decide presentarse en el concurso internacional CASP, que se celebra cada dos años y reúne a toda la comunidad dedicada a la predicción computacional de estructuras de proteínas. Su aproximación apuesta por las redes neuronales y la inteligencia artificial y, por sorpresa de todos - es una empresa de servicios informáticos y nunca antes había hecho nada en biología -, gana. ¡Y gana de largo, a mucha distancia del segundo clasificado!

¿Empieza la leyenda de AlphaFold?

Pues no exactamente porque, aunque presentan muchas estructuras nuevas, lo hacen sin mostrar su arma secreta y, por lo tanto, la comunidad de investigadores ven que hay una solución, pero no disponen de la herramienta y es una pequeña decepción. Afortunadamente, en la edición de 2021 vuelven a participar y a ganar, con una herramienta mejorada – AlphaFold2 – capaz de predecir el total de proteínas del proteoma humano y, ahora sí, comparten el código con todo el mundo.

¿Cuál fue la reacción de la comunidad investigadora ante la aparición de todas estas nuevas predicciones estructurales?

Enseguida empezamos a analizar esa gran cantidad de datos que Google ponía a disposición de la comunidad y, de hecho, los primeros análisis se publicaron vía redes sociales. Fue muy rápido y todo el mundo estaba muy emocionado.

Justamente a través de las redes sociales, un conjunto formado por 9 grupos de investigación internacionales muy diversos nos coordinamos para poner en contexto de investigación todos estos datos y ver qué impacto podrían tener, cómo podrían utilizarse y cuáles eran sus limitaciones.

A ver, recapitulamos un momento: ¿por qué hace falta una inteligencia artificial para realizar este trabajo? ¿Dónde está la revolución?

Verás, las proteínas son como un collar formado por aminoácidos, puestos uno tras otro. El hecho de que se estructuren tridimensionalmente implica que aminoácidos de la proteína que pueden estar muy alejados en el collar, puedan estar muy juntos en el espacio y que esto sea relevante para la función. Esta característica – lejos en el collar, pero cerca del espacio – es muy difícil de valorar tanto por el cerebro humano como por los métodos estadísticos tradicionales, que son lineales.

El secreto de AlphaFold2 es justamente un trabajo previo muy bueno para determinar qué parte de los datos es relevante y después aplicarle una inteligencia artificial que trabaja de forma no-lineal, que es especialmente buena resolviendo este tipo de problemas.

Entonces, ¿estamos ante una nueva era donde se trabajará cada vez más con inteligencia artificial? ¿Cuál es el futuro de estas herramientas en la investigación?

¡Su futuro es brillante! Yo creo que será una herramienta más a disposición de los investigadores. Hace 50 años era muy puntero tener a una persona trabajando con biología molecular en el laboratorio, pero hoy es la metodología por defecto. En inteligencia artificial creo que ocurrirá lo mismo: los laboratorios tendrán a sus especialistas en inteligencia artificial, al igual que tienen bioinformáticos y bioquímicos.

Pero la inteligencia artificial es un poco como una “caja negra”, a menudo no sabemos exactamente cómo llega a las conclusiones. ¿Cómo vive esto un científico, que siempre quiere entender bien el proceso deductivo detrás de una conclusión?

Pues a mí, que soy de formación biológica, ¡no me gusta nada! Sin embargo, aunque es cierto que a menudo no entiendes por qué la inteligencia artificial ha llegado a la conclusión que ofrece, existen sistemas más abiertos que te dicen cuáles son los factores que ha tenido en cuenta y te permiten seguir su "razonamiento".

En cualquier caso, a nivel práctico, si una herramienta de inteligencia artificial te proporciona una información útil que beneficia claramente a los pacientes, pues quizás no necesitas entender exactamente cómo ha llegado a ella.

Entiendo… Volviendo a las estructuras de las proteínas: ahora que tenemos el puzle completo, ¿qué nos falta por saber?

¡Las proteínas no trabajan solas! Hay cientos de miles de proteínas trabajando conjuntamente, interaccionando y haciendo sus funciones. Las predicciones de Google no anticipan qué proteínas interaccionan con cuáles, por ejemplo. Tampoco pueden predecir cómo sería una proteína alterada, clave de muchas enfermedades. Y, sobre todo, AlphaFold2 no es capaz de predecir la función de la proteína. Todavía existen muchas proteínas humanas que no tenemos ni idea de lo que hacen. Queda mucho trabajo por hacer y no estamos al final, ¡ni mucho menos!

Vale, hablamos de trabajo: ¿cómo estás utilizando esta nueva información estructural en tu laboratorio?

Con mi equipo hemos identificado las mutaciones más importantes en decenas de miles de pacientes de cáncer y, gracias a las estructuras de AlphaFold2, ahora podemos ponerlas en contexto. Esto nos permite ver cómo grupos de mutaciones aislados, que parecían poco importantes, toman relevancia justamente porque afectan a la estructura en el espacio de las proteínas, algo que no podíamos saber antes de tener las predicciones de Google.

Informaciones de última hora indican que Meta, antes Facebook, también ha entrado en el juego con su algoritmo ESMFold. ¿Qué piensas?

Cierto, ESMFold acaba de anunciar que ha determinado un montón de estructuras nuevas. Parece que su aproximación es más rápida pero menos precisa. Es necesario esperar a ver bien sus resultados para valorarlo, pero esta entrada de otro gigante de la informática en el campo de las estructuras de proteínas refuerza la idea de que el futuro de la inteligencia artificial es brillante y que, en breve serán herramientas de uso común en todos los laboratorios.

Pues parece que sí, que al final el maestro Asimov tenía razón y que la inteligencia artificial acabará trabajando codo con codo con investigadores humanos, para ayudar a entender mejor los aspectos más íntimos de las enfermedades que sufrimos y encontrar remedio. El futuro, difícil de ver es, pero por si acaso, preparémonos para una nueva hornada de Daneel R. Olivaws y Susan Calvins, los legendarios personajes de ciencia ficción... ¿o quizás no tanto?