Otvorený AI atlas predpovedá tvary viac než miliardy proteínov a rozširuje známy proteínový vesmír

Známy svet proteínov sa opäť výrazne rozšíril. Výskumníci z Biohubu predstavili nový otvorený atlas, ktorý obsahuje viac než 1,1 miliardy predpovedaných proteínových štruktúr a informácie o sekvenciách 6,8 miliardy proteínov. Za projektom stojí model umelej inteligencie ESMFold2, ktorý podľa tímu prekonáva AlphaFold3 aj ďalšie nástroje na predikciu štruktúr proteínov.

Move over, AlphaFold: open-source model predicts shape of 1 billion proteins.

Zdroj: https://www.nature.com/articles/d41586-026-01686-3

Nová databáza s názvom ESM Atlas bola zverejnená ako voľne prístupný zdroj. Podľa autorov výrazne presahuje databázu AlphaFoldu, a to o viac než 800 miliónov záznamov, aj predchádzajúcu verziu ESM Atlasu približne o 300 miliónov položiek. Cieľom nie je len zväčšiť objem dát, ale najmä lepšie pokryť časti proteínového sveta, ktoré sú zatiaľ málo preskúmané.

ESMFold2 vychádza z takzvaného „protein language“ modelu, ktorý tím Alexa Rivesa predstavil v roku 2024. Trénovaný bol na miliardách proteínov naprieč stromom života. Dôležité je, že zahŕňa aj metagenomické sekvencie z pôdy, oceánov a ďalších prostredí, ktoré v databáze predpovedaných štruktúr AlphaFoldu chýbajú. Práve tieto slabo opísané sekvencie tvoria väčšinu nového atlasu.

Autori v správe uvádzajú, že ESMFold2 dosahuje lepšie výsledky než existujúce metódy aj pri určovaní správnej štruktúry komplexov vzájomne interagujúcich proteínov. Týka sa to aj prípadov, keď sa molekuly protilátok viažu na svoje antigénové ciele. Tím zároveň opisuje, že pomocou modelu navrhol nové protilátky a ďalšie proteíny, ktoré sa majú silno viazať na proteíny spojené s rakovinami a imunitnými ochoreniami. Keď ich vytvorili a otestovali v laboratóriu, vysoký podiel návrhov fungoval podľa predpovedí.

Výskumníci pomocou atlasu našli aj štrukturálne podobnosti medzi CRISPR proteínmi mikrobiálnej obrany a jedným proteínom na úpravu génov, ktorý bol identifikovaný v pôdnej hube v roku 2023 a následne nájdený aj u ďalších eukaryotických druhov. Práve takéto spojenia medzi známymi a neznámymi časťami proteínového priestoru považuje tím za jeden z hlavných prínosov novej databázy.

Dojem z výsledkov je podľa Nature medzi vedcami priaznivý, najmä preto, že ESMFold2 je plne open source. Zároveň však prichádza do čoraz hustejšie zaplneného prostredia, v ktorom rýchlo napredujú otvorené aj proprietárne modely na prácu s proteínmi. To znamená, že nejde len o technologickú novinku, ale aj o súčasť širšieho súboja o to, kto bude určovať tempo v bioinformatike a návrhu biomolekúl.

Pre biológiu a biomedicínu môže mať takýto atlas veľký význam. Proteíny sú základnými pracovnými molekulami buniek a ich tvar vo veľkej miere určuje ich funkciu. Čím viac spoľahlivých predpovedí majú vedci k dispozícii, tým ľahšie môžu hľadať nové biologické mechanizmy, porovnávať vzdialene príbuzné molekuly či navrhovať kandidátov pre experimenty. Samotný zdroj však zároveň pripomína, že pole sa rýchlo mení a konkurenčné systémy napredujú veľmi rýchlym tempom.

Čo presne prináša nový ESM Atlas

Jadrom novinky je rozsah databázy aj jej otvorenosť.

A 3D computer generated model of Cytotoxic T-lymphocyte-associated protein 4.

Snímka zobrazuje: The AI tool designed proteins that would bind to cytotoxic T-lymphocyte-associated protein 4 (CTLA-4). Credit: Molekuul/SPL.

Zdroj: https://www.nature.com/articles/d41586-026-01686-3

Nový ESM Atlas zhromažďuje obrovské množstvo predpovedaných štruktúr a sekvencií, pričom sa sústreďuje aj na proteíny, ktoré zatiaľ neboli plne charakterizované. To je dôležité preto, že veľká časť biologickej rozmanitosti zostáva mimo dobre preskúmaných modelových organizmov. Atlas tak môže slúžiť ako orientačná mapa pre výskumníkov, ktorí sa snažia zaradiť neznáme sekvencie do širších funkčných a evolučných súvislostí.

Prečo sú metagenomické sekvencie také dôležité

Všeobecne platí, že metagenomika otvára prístup k genetickému materiálu organizmov, ktoré sa ťažko pestujú alebo ešte neboli detailne opísané. Sekvencie z pôdy, oceánov a iných prostredí preto často predstavujú obrovský, ale málo preskúmaný rezervoár nových proteínov. Ak ich AI model dokáže zaradiť podľa pravdepodobnej štruktúry, vedcom to môže pomôcť odhaliť vzdialené príbuznosti, nové funkčné triedy aj potenciálne biotechnologické nástroje. V tomto prípade je však dôležité držať sa zdroja: ten hovorí o rozšírení pokrytia a o nových spojeniach, nie o tom, že by boli funkcie všetkých týchto proteínov už známe.

Ako podobné AI modely pracujú

Vo všeobecnom kontexte ide pri „protein language“ modeloch o prístup, ktorý sa učí zo vzorov v obrovských súboroch proteínových sekvencií. Podobne ako jazykové modely hľadajú vzťahy medzi slovami, tieto systémy sa snažia zachytiť pravidelnosti v poradí aminokyselín a z nich odvodiť pravdepodobné štruktúrne či funkčné vlastnosti. Samotný zdroj uvádza, že ESMFold2 bol trénovaný na miliardách proteínov a že má byť silný aj pri interagujúcich proteínových komplexoch. To je oblasť, ktorá je vo všeobecnosti biologicky mimoriadne dôležitá, pretože mnohé molekulárne procesy závisia nie od izolovaných proteínov, ale od ich vzájomných väzieb.

Čo to môže znamenať pre medicínu a vývoj proteínov

Správa opisuje aj praktickejšie využitie: návrh nových protilátok a iných proteínov, ktoré sa viažu na ciele spojené s rakovinami a imunitnými ochoreniami. Ak sa takéto návrhy v laboratóriu potvrdzujú, môže to urýchliť skoré fázy výskumu, v ktorých sa hľadajú sľubné molekulové kandidáty. V širšom zmysle môže AI skrátiť cestu od veľkého priestoru možných sekvencií k menšej skupine návrhov vhodných na experimentálne overenie. To však neznamená, že počítačová predpoveď nahrádza laboratórnu validáciu; skôr pomáha zúžiť výber a lepšie nasmerovať pokusy.

Čo zatiaľ zostáva otvorené

Aj pri pôsobivom rozsahu a ambícii ostáva viacero otázok. Zdroj síce uvádza tvrdenie tímu Biohubu o výkone ESMFold2 voči AlphaFold3 a ďalším systémom, no celé prostredie sa rýchlo vyvíja a konkurencia je silná. V praxi bude dôležité, ako sa model osvedčí pri nezávislom používaní naprieč rôznymi typmi biologických úloh. Rovnako platí, že predpovedaná štruktúra ešte automaticky nevysvetľuje biologickú funkciu. Nový atlas preto možno chápať ako veľmi rozsiahly a sľubný základ pre ďalší výskum, nie ako konečné zmapovanie proteínového sveta.


Zdroj: Nature News

Pôvodný článok: https://www.nature.com/articles/d41586-026-01686-3


Môže sa Vám ešte páčiť...

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *