ШІ-модель Evo 2 навчили проєктувати геноми

Дослідники Arc Institute розробили модель Evo 2, здатну аналізувати генетичний код, прогнозувати захворювання і мутації, а також проєктувати нові геноми довжиною як у простих бактерій.

Експерти співпрацюють з Nvidia, Стенфордським університетом, Каліфорнійським університетом у Берклі та Каліфорнійським університетом у Сан-Франциско. Їхню нейромережу навчено на ДНК понад 100 000 видів.

Код Evo 2 перебуває у відкритому доступі на GitHub, а також інтегрований у фреймворк Nvidia BioNeMo.

Arc Institute працював із дослідницькою лабораторією штучного інтелекту Goodfire для розроблення візуалізатора механістичної інтерпретованості, який розкриває ключові біологічні особливості та патерни. Модель вчиться розпізнавати їх у геномних послідовностях.

«Evo 2 є найбільшою на сьогодні ШІ-моделлю в біології, навченою на більш ніж 9,3 трлн нуклеотидів — будівельних блоків, що складають ДНК або РНК. […] Evo 2 охоплює інформацію про людину, рослини та інші одноклітинні та багатоклітинні види еукаріотичної галузі життя», — ідеться в оголошенні.

Нейромережа «має універсальне розуміння древа життя», яке корисне для вирішення безлічі завдань на кшталт передбачення мутацій і розробки коду для штучного життя.

«Еволюція закодувала біологічну інформацію в ДНК і РНК, створивши патерни, які Evo 2 може виявити та використовувати», — підкреслили автори роботи.

Для навчання ШІ застосували понад 2 000 графічних процесорів Nvidia H100. Вона здатна обробляти генетичні послідовності до 1 млн нуклеотидів одночасно, що дає їй змогу розуміти взаємозв’язки між віддаленими частинами геному.

У тестах із варіантами гена BRCA1, пов’язаного з раком молочної залози, Evo 2 з точністю понад 90% передбачила, які мутації є доброякісними, а які — потенційно патогенними.

Дослідницька група вважає, що на основі Evo 2 можна створювати більш специфічні ШІ-моделі.

Нагадаємо, у липні 2024 року китайські вчені розробили робота з вирощеним у лабораторних умовах штучним мозком, здатного навчатися виконання різних завдань.

Раніше Meta AI випустила «модель білкової мови» ESM-2 з 15 млрд параметрів і базу даних ESM Metagenomic Atlas, що містить понад 600 млн прогностичних структур метагеномних сполук.

Источник

No votes yet.

Please wait...