Evo2 опубликован в Nature: ИИ-модель с 40 миллиардами параметров, которая читает, предсказывает и пишет ДНК всех форм жизни
Наука и открытия March 9, 2026 📍 Palo Alto, United States Research Review

Evo2 опубликован в Nature: ИИ-модель с 40 миллиардами параметров, которая читает, предсказывает и пишет ДНК всех форм жизни

Arc Institute, NVIDIA и исследователи из Стэнфорда, UC Berkeley и UCSF опубликовали Evo2 в Nature — модель ДНК с 40 миллиардами параметров и открытым исходным кодом, обученную на 9,3 триллиона нуклеотидов, способную предсказывать патогенные мутации с точностью свыше 90% и генерировать целые геномы.

Ключевые выводы

Evo2 — модель ДНК с 40 миллиардами параметров и открытым исходным кодом, опубликованная в Nature 7 марта 2026 года Arc Institute и NVIDIA. Обученная на 9,3 триллиона нуклеотидов из более чем 128 000 геномов, она предсказывает мутации BRCA1 с точностью свыше 90% и способна генерировать синтетические геномы — ключевая веха вычислительной биологии.


7 марта 2026 года журнал Nature опубликовал, возможно, самую значимую работу по вычислительной биологии в этом году: «Genome modeling and design across all domains of life with Evo 2». Статья представляет Evo2 — ДНК-фундаментальную модель, разработанную Arc Institute совместно с NVIDIA и исследователями из Стэнфордского университета, Калифорнийского университета в Беркли и Калифорнийского университета в Сан-Франциско. С 40 миллиардами параметров, обученная на 9,3 триллиона нуклеотидов — крупнейшем наборе биологических последовательностей, когда-либо собранном для одной модели — Evo2 знаменует фундаментальный сдвиг во взаимодействии искусственного интеллекта с кодом жизни.

В отличие от предыдущих геномных ИИ-моделей, фокусировавшихся на конкретных организмах или узких задачах, Evo2 работает со всеми доменами жизни: бактериями, археями, растениями, животными, человеком и вирусами. Модель обрабатывает генетические последовательности длиной до одного миллиона пар оснований с нуклеотидным разрешением, эффективно рассматривая ДНК как язык, который можно читать, понимать и писать. Обучение проводилось на платформе NVIDIA DGX Cloud с использованием более 2 000 GPU H100, с применением новой архитектуры StripedHyena 2, которая обрабатывает сверхдлинные последовательности эффективнее традиционных трансформеров.

Данные для обучения: 128 000 геномов всех форм жизни

Масштаб обучающих данных Evo2 беспрецедентен для вычислительной биологии. Набор данных охватывает более 128 000 полных геномов и метагеномных сборок — от одноклеточных бактерий до сложных многоклеточных организмов. Такой охват позволяет модели выявлять универсальные паттерны в генетическом коде — закономерности, сохранявшиеся на протяжении миллиардов лет эволюции и лежащие в основе фундаментальных биологических процессов: регуляции генов, кодирования белков и организации генома. 9,3 триллиона нуклеотидов в обучающей выборке многократно превосходят предыдущие работы: оригинальная модель Evo, опубликованная как препринт в феврале 2025 года, обучалась на значительно меньшем наборе данных.

Source: Arc Institute / Nature 2026

Клиническая значимость: предсказание мутаций BRCA1

Пожалуй, наиболее клинически значимая демонстрация возможностей Evo2 — её результаты в классификации вариантов гена BRCA1. BRCA1 — ген-супрессор опухолей, мутации которого связаны со значительно повышенным риском рака молочной железы и яичников. Классификация вариантов BRCA1 как доброкачественных или патогенных — критически важная клиническая задача, исторически требовавшая дорогостоящих функциональных анализов или масштабных эпидемиологических исследований. В тестах Evo2 достигла точности более 90% в предсказании патогенности мутаций BRCA1, используя лишь последовательность ДНК в качестве входных данных.

Возможность Показатели Evo2 Лучший предшественник
Предсказание патогенности BRCA1 >90% точность ~85% (специализированные инструменты)
Длина обрабатываемых последовательностей 1 миллион пар оснований ~100 тысяч пар оснований
Масштаб обучающих данных 9,3 трлн нуклеотидов ~300 млрд нуклеотидов
Генерация геномов Полные синтетические геномы Только короткие последовательности
Кросс-доменный охват Все домены жизни Модели одного домена

Дизайн геномов: запись новой ДНК

Evo2 не только читает и предсказывает — она способна генерировать совершенно новые последовательности ДНК. Исследователи продемонстрировали эту возможность, создав синтетические геномы, вдохновлённые бактерией Mycoplasma genitalium — одним из простейших самовоспроизводящихся организмов. Хотя сгенерированные геномы пока не являются функциональными организмами, они представляют доказательство концепции ИИ-управляемого дизайна геномов. Способность генерировать биологически правдоподобные последовательности геномного масштаба открывает возможности в синтетической биологии — от создания организмов для биоремедиации до проектирования специализированных микробных фабрик для фармацевтического производства.

Открытая наука и отраслевые последствия

Arc Institute выпустил Evo2 полностью с открытым исходным кодом — код, данные обучения, инструменты обучения и инференса, все весовые коэффициенты модели публично доступны на GitHub Arc. Модель также интегрирована в платформу NVIDIA BioNeMo. Этот подход контрастирует с проприетарными стратегиями большинства крупных разработчиков ИИ-моделей и отражает миссию Arc Institute как некоммерческой исследовательской организации. Для фармацевтической и биотехнологической индустрий Evo2 представляет и возможность, и вызов. Способность модели предсказывать эффекты вариантов по всему геному может ускорить идентификацию мишеней для лекарств. Но эти применения потребуют тщательной валидации — высокопроизводительная ИИ-модель не заменяет лабораторные эксперименты и клинические испытания. Тем не менее, публикация в Nature знаменует рубеж: эра общецелевого геномного ИИ наступила, и инструменты для её освоения, по осознанному выбору создателей, доступны каждому.

📚 Источники и ссылки

# Source Link
[1] Genome modeling and design across all domains of life with Evo 2 Arc Institute et al., 2026 nature.com
[2] Evo 2 Genomics AI Model Arc Institute, 2026 arcinstitute.org
[3] NVIDIA BioNeMo Framework NVIDIA, 2026 nvidia.com
Share X Reddit LinkedIn Telegram Facebook