16 de novembre de 2022

Eduard Porta: “El futur de la Intel·ligència Artificial en biomedicina és brillant”

El Dr. Eduard Porta, líder del grup de recerca en Immunogenòmica del Càncer de l’Institut de Recerca contra la Leucèmia Josep Carreras, ha participat en una iniciativa científica comunitària per posar en context el valor de les prediccions de AlphaFold2, l’algoritme de Deep Mind, l’empresa especialitzada en intel·ligència artificial de Google, capaç de determinar l’estructura tridimensional de totes les proteïnes humanes conegudes. Les conclusions s’han publicat recentment a la revista especialitzada Nature Structural Biology.

En aquesta conversa, el Dr. Porta ens explica la importància de disposar d’aquests models 3D i ens avança que estem davant d’una nova era en la que les eines basades en la intel·ligència artificial seran el nou estàndard al laboratori.

Comencem pel començament: què són les proteïnes i per què és important conèixer la seva estructura tridimensional?

Les proteïnes son unes molècules que es troben dins de les cèl·lules i que fan gran part de les funcions que necessita per a viure. La forma que prenen en l’espai és molt important per a fer-les, aquestes funcions, i deixen de funcionar si no es pleguen correctament o prenen una forma diferent per haver patit una mutació. Això pot donar lloc a malalties molt diverses, com ara el càncer.

Ja veig... llavors, conèixer l’estructura 3D de les proteïnes pot ajudar a trobar noves teràpies. Com s’ha aconseguit determinar l’estructura 3D del conjunt de proteïnes humanes?

Doncs amb molts anys de feina! Durant els últims 70 anys s’ha fet utilitzant tecnologies cares i laborioses, com la cristal·lografia de raigs X o la ressonància magnètica nuclear. Fins al 2019, s’havia aconseguit l’estructura d’unes 5.000 proteïnes, sobre les prop de 20.000 que existeixen en el proteoma humà.

En restaven 15.000, però hi ha proteïnes que no es poden determinar amb aquests procediments, de manera que des de fa temps s’ha buscat la forma de predir l’estructura per mitjans computacionals. A mitjans dels anys 80 del segle XX es van generar els primers algoritmes que funcionaven per similitud: a igual seqüència, similar estructura 3D. Això va augmentar el nostre coneixement fins a unes 8.000 estructures, però encara en faltaven moltes.

I llavors és quan Google entra en joc, és així?

Sí, l’any 2019 Google decideix presentar-se al concurs internacional CASP, que es celebra cada dos anys i aplega tota la comunitat dedicada a la predicció computacional d’estructures de proteïnes. La seva aproximació aposta per les xarxes neuronals i la intel·ligència artificial i, per sorpresa de tothom - és una empresa de serveis informàtics i mai abans havia fet res en biologia -, guanya. I guanya de llarg, a molta distància del segon classificat!

Comença la llegenda d’AlphaFold?

Doncs no ben bé, perquè si bé presenten moltes estructures noves, ho fan sense mostrar la seva arma secreta i, per tant, la comunitat d’investigadors veuen que hi ha una solució, però no disposen de l’eina i és una petita decepció. Afortunadament, en l’edició de 2021 torna a participar i a guanyar, amb una eina millorada – AlphaFold2 – capaç de predir el total de proteïnes del proteoma humà i, ara sí, en comparteixen el codi amb tothom.

Quina va ser la reacció de la comunitat investigadora davant l’aparició de totes aquestes noves prediccions estructurals?

De seguida vam començar a analitzar aquesta gran quantitat de dades que Google posava a disposició de la comunitat i, de fet, les primeres anàlisis es van publicar via xarxes socials. Va ser molt ràpid i tothom estava molt emocionat.

Justament a través de les xarxes socials, un conjunt format per 9 grups de recerca internacionals molt diversos ens vam coordinar per tal de posar en context de recerca totes aquestes dades i veure quin impacte podrien tenir, com es podrien utilitzar i quines eren les seves limitacions.

A veure, recapitulem un moment: per què cal una intel·ligència artificial per a fer aquesta feina? On està la revolució?

Veuràs, les proteïnes són com un collaret format per aminoàcids, posats un darrera l’altre. El fet que s’estructurin tridimensionalment implica que aminoàcids de la proteïna que poden estar molt allunyats en el collaret, puguin estar molt junts en l’espai i que això sigui rellevant per a la funció. Aquesta característica – lluny en el collaret però a prop en l’espai – és molt difícil de valorar tant pel cervell humà com pels mètodes estadístics tradicionals, que són lineals.

El secret d’AlphaFold2 és justament un treball previ molt bo per determinar quina part de les dades és rellevant i després aplicar-hi una intel·ligència artificial que treballa de forma no-lineal, que és especialment bona resolent aquest tipus de problemes.

Llavors, estem davant d’una nova era on es treballarà cada cop més amb intel·ligència artificial? Quin és el futur d’aquestes eines en la recerca?

El seu futur és brillant! Jo crec que serà una eina més a disposició dels investigadors. Fa 50 anys era molt punter tenir una persona treballant amb biologia molecular al laboratori, però a dia d’avui és la metodologia per defecte. En intel·ligència artificial crec que passarà el mateix: els laboratoris tindran els seus especialistes en intel·ligència artificial, igual com tenen bioinformàtics i bioquímics.

Però la intel·ligència artificial és una mica com una “caixa negra”, sovint no sabem ben bé com arriba a les conclusions. Com ho viu això un científic, que sempre vol entendre bé el procés deductiu darrera d’una conclusió?

Doncs a mi, que soc de formació biològica, no m’agrada gens! Tanmateix, és cert que sovint no entens per què la intel·ligència artificial ha arribat a la conclusió que ofereix, però existeixen sistemes més oberts que et diuen quins son els factors que ha tingut en compte i et permeten seguir el seu “raonament”.

En qualsevol cas, a nivell pràctic, si una eina d’intel·ligència artificial et proporciona una informació útil que beneficia clarament els pacients, doncs potser no et cal entendre ben bé com hi ha arribat.

Tornant a les estructures de les proteïnes: ara que tenim el trencaclosques sencer... què ens falta per saber?

Les proteïnes no treballen soles! Hi ha centenars de milers de molècules de proteïnes treballant conjuntament, interaccionant i fent les seves funcions. Les prediccions de Google no anticipen quines proteïnes interaccionen amb quines, per exemple. Tampoc poden predir com seria una proteïna alterada, clau de moltes malalties. I, sobretot, AlphaFold2 no és capaç de predir la funció de la proteïna. Encara hi ha moltes proteïnes humanes que no tenim ni idea de què fan. Queda molta feina per fer i no estem al final, ni molt menys!

Doncs parlem de feina: com esteu utilitzant aquesta nova informació estructural al teu laboratori?

Amb el meu equip hem identificat les mutacions més importants en desenes de milers de pacients de càncer i, gràcies a les estructures d’AlphaFold2, ara les podem posar en context. Això ens permet veure com grups de mutacions aïllats, que semblaven poc importants, prenen rellevància justament perquè afecten l’estructura en l’espai de les proteïnes, cosa que no podíem saber abans de tenir les prediccions de Google.

Informacions d’última hora indiquen que Meta, abans Facebook, també ha entrat al joc amb el seu algoritme ESMFold. Què en penses?

És cert, ESMFold acaba d’anunciar que ha determinat un bon munt d’estructures noves. Sembla que la seva aproximació és més ràpida, però menys precisa. Cal esperar a veure bé els seus resultats per a valorar-ho, però aquesta entrada d’un altre gegant de la informàtica en el camp de les estructures de proteïnes reforça la idea que el futur de la intel·ligència artificial és brillant i que, ben aviat, seran eines d’ús comú a tots els laboratoris.

Doncs sembla que sí, que al final el mestre Asimov tenia raó i que la intel·ligència artificial acabarà treballant colze a colze amb investigadors humans per ajudar a entendre millor els aspectes més íntims de les malalties que patim i trobar-hi remei. És difícil de veure, el futur, però per si de cas, preparem-nos per a una nova fornada de Daneel R. Olivaws i Susan Calvins, els llegendaris personatges de ciència ficció... o potser no tant?

En aquesta conversa, el Dr. Porta ens explica la importància de disposar d’aquests models 3D i ens avança que estem davant d’una nova era en la que les eines basades en la intel·ligència artificial seran el nou estàndard al laboratori.

Comencem pel començament: què són les proteïnes i per què és important conèixer la seva estructura tridimensional?

Les proteïnes son unes molècules que es troben dins de les cèl·lules i que fan gran part de les funcions que necessita per a viure. La forma que prenen en l’espai és molt important per a fer-les, aquestes funcions, i deixen de funcionar si no es pleguen correctament o prenen una forma diferent per haver patit una mutació. Això pot donar lloc a malalties molt diverses, com ara el càncer.

Ja veig... llavors, conèixer l’estructura 3D de les proteïnes pot ajudar a trobar noves teràpies. Com s’ha aconseguit determinar l’estructura 3D del conjunt de proteïnes humanes?

Doncs amb molts anys de feina! Durant els últims 70 anys s’ha fet utilitzant tecnologies cares i laborioses, com la cristal·lografia de raigs X o la ressonància magnètica nuclear. Fins al 2019, s’havia aconseguit l’estructura d’unes 5.000 proteïnes, sobre les prop de 20.000 que existeixen en el proteoma humà.

En restaven 15.000, però hi ha proteïnes que no es poden determinar amb aquests procediments, de manera que des de fa temps s’ha buscat la forma de predir l’estructura per mitjans computacionals. A mitjans dels anys 80 del segle XX es van generar els primers algoritmes que funcionaven per similitud: a igual seqüència, similar estructura 3D. Això va augmentar el nostre coneixement fins a unes 8.000 estructures, però encara en faltaven moltes.

I llavors és quan Google entra en joc, és així?

Sí, l’any 2019 Google decideix presentar-se al concurs internacional CASP, que es celebra cada dos anys i aplega tota la comunitat dedicada a la predicció computacional d’estructures de proteïnes. La seva aproximació aposta per les xarxes neuronals i la intel·ligència artificial i, per sorpresa de tothom - és una empresa de serveis informàtics i mai abans havia fet res en biologia -, guanya. I guanya de llarg, a molta distància del segon classificat!

Comença la llegenda d’AlphaFold?

Doncs no ben bé, perquè si bé presenten moltes estructures noves, ho fan sense mostrar la seva arma secreta i, per tant, la comunitat d’investigadors veuen que hi ha una solució, però no disposen de l’eina i és una petita decepció. Afortunadament, en l’edició de 2021 torna a participar i a guanyar, amb una eina millorada – AlphaFold2 – capaç de predir el total de proteïnes del proteoma humà i, ara sí, en comparteixen el codi amb tothom.

Quina va ser la reacció de la comunitat investigadora davant l’aparició de totes aquestes noves prediccions estructurals?

De seguida vam començar a analitzar aquesta gran quantitat de dades que Google posava a disposició de la comunitat i, de fet, les primeres anàlisis es van publicar via xarxes socials. Va ser molt ràpid i tothom estava molt emocionat.

Justament a través de les xarxes socials, un conjunt format per 9 grups de recerca internacionals molt diversos ens vam coordinar per tal de posar en context de recerca totes aquestes dades i veure quin impacte podrien tenir, com es podrien utilitzar i quines eren les seves limitacions.

A veure, recapitulem un moment: per què cal una intel·ligència artificial per a fer aquesta feina? On està la revolució?

Veuràs, les proteïnes són com un collaret format per aminoàcids, posats un darrera l’altre. El fet que s’estructurin tridimensionalment implica que aminoàcids de la proteïna que poden estar molt allunyats en el collaret, puguin estar molt junts en l’espai i que això sigui rellevant per a la funció. Aquesta característica – lluny en el collaret però a prop en l’espai – és molt difícil de valorar tant pel cervell humà com pels mètodes estadístics tradicionals, que són lineals.

El secret d’AlphaFold2 és justament un treball previ molt bo per determinar quina part de les dades és rellevant i després aplicar-hi una intel·ligència artificial que treballa de forma no-lineal, que és especialment bona resolent aquest tipus de problemes.

Llavors, estem davant d’una nova era on es treballarà cada cop més amb intel·ligència artificial? Quin és el futur d’aquestes eines en la recerca?

El seu futur és brillant! Jo crec que serà una eina més a disposició dels investigadors. Fa 50 anys era molt punter tenir una persona treballant amb biologia molecular al laboratori, però a dia d’avui és la metodologia per defecte. En intel·ligència artificial crec que passarà el mateix: els laboratoris tindran els seus especialistes en intel·ligència artificial, igual com tenen bioinformàtics i bioquímics.

Però la intel·ligència artificial és una mica com una “caixa negra”, sovint no sabem ben bé com arriba a les conclusions. Com ho viu això un científic, que sempre vol entendre bé el procés deductiu darrera d’una conclusió?

Doncs a mi, que soc de formació biològica, no m’agrada gens! Tanmateix, és cert que sovint no entens per què la intel·ligència artificial ha arribat a la conclusió que ofereix, però existeixen sistemes més oberts que et diuen quins son els factors que ha tingut en compte i et permeten seguir el seu “raonament”.

En qualsevol cas, a nivell pràctic, si una eina d’intel·ligència artificial et proporciona una informació útil que beneficia clarament els pacients, doncs potser no et cal entendre ben bé com hi ha arribat.

Tornant a les estructures de les proteïnes: ara que tenim el trencaclosques sencer... què ens falta per saber?

Les proteïnes no treballen soles! Hi ha centenars de milers de molècules de proteïnes treballant conjuntament, interaccionant i fent les seves funcions. Les prediccions de Google no anticipen quines proteïnes interaccionen amb quines, per exemple. Tampoc poden predir com seria una proteïna alterada, clau de moltes malalties. I, sobretot, AlphaFold2 no és capaç de predir la funció de la proteïna. Encara hi ha moltes proteïnes humanes que no tenim ni idea de què fan. Queda molta feina per fer i no estem al final, ni molt menys!

Doncs parlem de feina: com esteu utilitzant aquesta nova informació estructural al teu laboratori?

Amb el meu equip hem identificat les mutacions més importants en desenes de milers de pacients de càncer i, gràcies a les estructures d’AlphaFold2, ara les podem posar en context. Això ens permet veure com grups de mutacions aïllats, que semblaven poc importants, prenen rellevància justament perquè afecten l’estructura en l’espai de les proteïnes, cosa que no podíem saber abans de tenir les prediccions de Google.

Informacions d’última hora indiquen que Meta, abans Facebook, també ha entrat al joc amb el seu algoritme ESMFold. Què en penses?

És cert, ESMFold acaba d’anunciar que ha determinat un bon munt d’estructures noves. Sembla que la seva aproximació és més ràpida, però menys precisa. Cal esperar a veure bé els seus resultats per a valorar-ho, però aquesta entrada d’un altre gegant de la informàtica en el camp de les estructures de proteïnes reforça la idea que el futur de la intel·ligència artificial és brillant i que, ben aviat, seran eines d’ús comú a tots els laboratoris.

Doncs sembla que sí, que al final el mestre Asimov tenia raó i que la intel·ligència artificial acabarà treballant colze a colze amb investigadors humans per ajudar a entendre millor els aspectes més íntims de les malalties que patim i trobar-hi remei. És difícil de veure, el futur, però per si de cas, preparem-nos per a una nova fornada de Daneel R. Olivaws i Susan Calvins, els llegendaris personatges de ciència ficció... o potser no tant?