Evo2 опубликован в Nature: ИИ-модель с 40 миллиардами параметров, которая читает, предсказывает и пишет ДНК всех форм жизни
Arc Institute, NVIDIA и исследователи из Стэнфорда, UC Berkeley и UCSF опубликовали Evo2 в Nature — модель ДНК с 40 миллиардами параметров и открытым исходным кодом, обученную на 9,3 триллиона нуклеотидов, способную предсказывать патогенные мутации с точностью свыше 90% и генерировать целые геномы.
Ключевые выводы
Evo2 — модель ДНК с 40 миллиардами параметров и открытым исходным кодом, опубликованная в Nature 7 марта 2026 года Arc Institute и NVIDIA. Обученная на 9,3 триллиона нуклеотидов из более чем 128 000 геномов, она предсказывает мутации BRCA1 с точностью свыше 90% и способна генерировать синтетические геномы — ключевая веха вычислительной биологии.
7 марта 2026 года журнал Nature опубликовал, возможно, самую значимую работу по вычислительной биологии в этом году: «Genome modeling and design across all domains of life with Evo 2». Статья представляет Evo2 — ДНК-фундаментальную модель, разработанную Arc Institute совместно с NVIDIA и исследователями из Стэнфордского университета, Калифорнийского университета в Беркли и Калифорнийского университета в Сан-Франциско. С 40 миллиардами параметров, обученная на 9,3 триллиона нуклеотидов — крупнейшем наборе биологических последовательностей, когда-либо собранном для одной модели — Evo2 знаменует фундаментальный сдвиг во взаимодействии искусственного интеллекта с кодом жизни.
В отличие от предыдущих геномных ИИ-моделей, фокусировавшихся на конкретных организмах или узких задачах, Evo2 работает со всеми доменами жизни: бактериями, археями, растениями, животными, человеком и вирусами. Модель обрабатывает генетические последовательности длиной до одного миллиона пар оснований с нуклеотидным разрешением, эффективно рассматривая ДНК как язык, который можно читать, понимать и писать. Обучение проводилось на платформе NVIDIA DGX Cloud с использованием более 2 000 GPU H100, с применением новой архитектуры StripedHyena 2, которая обрабатывает сверхдлинные последовательности эффективнее традиционных трансформеров.
Данные для обучения: 128 000 геномов всех форм жизни
Масштаб обучающих данных Evo2 беспрецедентен для вычислительной биологии. Набор данных охватывает более 128 000 полных геномов и метагеномных сборок — от одноклеточных бактерий до сложных многоклеточных организмов. Такой охват позволяет модели выявлять универсальные паттерны в генетическом коде — закономерности, сохранявшиеся на протяжении миллиардов лет эволюции и лежащие в основе фундаментальных биологических процессов: регуляции генов, кодирования белков и организации генома. 9,3 триллиона нуклеотидов в обучающей выборке многократно превосходят предыдущие работы: оригинальная модель Evo, опубликованная как препринт в феврале 2025 года, обучалась на значительно меньшем наборе данных.
Клиническая значимость: предсказание мутаций BRCA1
Пожалуй, наиболее клинически значимая демонстрация возможностей Evo2 — её результаты в классификации вариантов гена BRCA1. BRCA1 — ген-супрессор опухолей, мутации которого связаны со значительно повышенным риском рака молочной железы и яичников. Классификация вариантов BRCA1 как доброкачественных или патогенных — критически важная клиническая задача, исторически требовавшая дорогостоящих функциональных анализов или масштабных эпидемиологических исследований. В тестах Evo2 достигла точности более 90% в предсказании патогенности мутаций BRCA1, используя лишь последовательность ДНК в качестве входных данных.
| Возможность | Показатели Evo2 | Лучший предшественник |
|---|---|---|
| Предсказание патогенности BRCA1 | >90% точность | ~85% (специализированные инструменты) |
| Длина обрабатываемых последовательностей | 1 миллион пар оснований | ~100 тысяч пар оснований |
| Масштаб обучающих данных | 9,3 трлн нуклеотидов | ~300 млрд нуклеотидов |
| Генерация геномов | Полные синтетические геномы | Только короткие последовательности |
| Кросс-доменный охват | Все домены жизни | Модели одного домена |
Дизайн геномов: запись новой ДНК
Evo2 не только читает и предсказывает — она способна генерировать совершенно новые последовательности ДНК. Исследователи продемонстрировали эту возможность, создав синтетические геномы, вдохновлённые бактерией Mycoplasma genitalium — одним из простейших самовоспроизводящихся организмов. Хотя сгенерированные геномы пока не являются функциональными организмами, они представляют доказательство концепции ИИ-управляемого дизайна геномов. Способность генерировать биологически правдоподобные последовательности геномного масштаба открывает возможности в синтетической биологии — от создания организмов для биоремедиации до проектирования специализированных микробных фабрик для фармацевтического производства.
Открытая наука и отраслевые последствия
Arc Institute выпустил Evo2 полностью с открытым исходным кодом — код, данные обучения, инструменты обучения и инференса, все весовые коэффициенты модели публично доступны на GitHub Arc. Модель также интегрирована в платформу NVIDIA BioNeMo. Этот подход контрастирует с проприетарными стратегиями большинства крупных разработчиков ИИ-моделей и отражает миссию Arc Institute как некоммерческой исследовательской организации. Для фармацевтической и биотехнологической индустрий Evo2 представляет и возможность, и вызов. Способность модели предсказывать эффекты вариантов по всему геному может ускорить идентификацию мишеней для лекарств. Но эти применения потребуют тщательной валидации — высокопроизводительная ИИ-модель не заменяет лабораторные эксперименты и клинические испытания. Тем не менее, публикация в Nature знаменует рубеж: эра общецелевого геномного ИИ наступила, и инструменты для её освоения, по осознанному выбору создателей, доступны каждому.
📚 Источники и ссылки
| # | Source | Link |
|---|---|---|
| [1] | Genome modeling and design across all domains of life with Evo 2 |
|
| [2] | Evo 2 Genomics AI Model |
|
| [3] | NVIDIA BioNeMo Framework |
|