Дослідники Arc Institute розробили модель Evo 2, здатну аналізувати генетичний код, прогнозувати захворювання і мутації, а також проєктувати нові геноми довжиною як у простих бактерій.
Експерти співпрацюють з Nvidia, Стенфордським університетом, Каліфорнійським університетом у Берклі та Каліфорнійським університетом у Сан-Франциско. Їхню нейромережу навчено на ДНК понад 100 000 видів.
Код Evo 2 перебуває у відкритому доступі на GitHub, а також інтегрований у фреймворк Nvidia BioNeMo.
Arc Institute працював із дослідницькою лабораторією штучного інтелекту Goodfire для розроблення візуалізатора механістичної інтерпретованості, який розкриває ключові біологічні особливості та патерни. Модель вчиться розпізнавати їх у геномних послідовностях.
«Evo 2 є найбільшою на сьогодні ШІ-моделлю в біології, навченою на більш ніж 9,3 трлн нуклеотидів — будівельних блоків, що складають ДНК або РНК. […] Evo 2 охоплює інформацію про людину, рослини та інші одноклітинні та багатоклітинні види еукаріотичної галузі життя», — ідеться в оголошенні.
Нейромережа «має універсальне розуміння древа життя», яке корисне для вирішення безлічі завдань на кшталт передбачення мутацій і розробки коду для штучного життя.
«Еволюція закодувала біологічну інформацію в ДНК і РНК, створивши патерни, які Evo 2 може виявити та використовувати», — підкреслили автори роботи.
Для навчання ШІ застосували понад 2 000 графічних процесорів Nvidia H100. Вона здатна обробляти генетичні послідовності до 1 млн нуклеотидів одночасно, що дає їй змогу розуміти взаємозв’язки між віддаленими частинами геному.
У тестах із варіантами гена BRCA1, пов’язаного з раком молочної залози, Evo 2 з точністю понад 90% передбачила, які мутації є доброякісними, а які — потенційно патогенними.
Дослідницька група вважає, що на основі Evo 2 можна створювати більш специфічні ШІ-моделі.
Нагадаємо, у липні 2024 року китайські вчені розробили робота з вирощеним у лабораторних умовах штучним мозком, здатного навчатися виконання різних завдань.
Раніше Meta AI випустила «модель білкової мови» ESM-2 з 15 млрд параметрів і базу даних ESM Metagenomic Atlas, що містить понад 600 млн прогностичних структур метагеномних сполук.