Парадигма Nested Learning от Google переосмысливает глубокое обучение как систему взаимосвязанных уровней оптимизации — и обещает решить катастрофическое забывание

Представленный на NeurIPS 2025, «Nested Learning» от Google Research рассматривает архитектуру нейросети и оптимизацию как единую систему многоуровневых задач обучения, вводя самомодифицирующуюся архитектуру «Hope», которая превосходит трансформеры в задачах непрерывного обучения.

Ключевые выводы

Google Research представляет Nested Learning — парадигму, объединяющую архитектуру модели и оптимизацию в взаимосвязанные уровни оптимизации с различными частотами обновления. Сопутствующая архитектура «Hope» демонстрирует превосходное непрерывное обучение, меньшую перплексию и лучшую работу с длинным контекстом, чем стандартные трансформеры, напрямую решая давнюю проблему катастрофического забывания.

История глубокого обучения строилась на чётком концептуальном разделении: с одной стороны — архитектура, структура сети, определяющая движение информации; с другой — алгоритм оптимизации, правило обучения, определяющее, как сеть учится. Исследователи десятилетиями совершенствовали каждое направление независимо, создавая всё более крупные трансформеры, изощрённые оптимизаторы и созвездие архитектурных инноваций — от механизмов внимания до моделей пространства состояний.

Теперь команда Google Research утверждает, что это разделение — иллюзия. В статье, представленной на NeurIPS 2025, Али Бeхруз, Мейсам Разавиян, Пейлинь Чжон и Вахаб Мирокни вводят «Nested Learning» — парадигму, рассматривающую модель машинного обучения не как единый непрерывный процесс, а как систему взаимосвязанных многоуровневых задач оптимизации, работающих одновременно на разных временных масштабах. Архитектура и оптимизация, утверждают они, — это просто разные «уровни» одной и той же базовой обучающей системы. [1][2]

Заявление провокационное, и результаты оправдывают провокацию. Экспериментальная архитектура «Hope», разработанная на принципах Nested Learning, превосходит стандартные трансформеры и современные рекуррентные модели в задачах языкового моделирования, рассуждения на основе здравого смысла и работы с длинным контекстом — демонстрируя при этом радикально улучшенную способность осваивать новые навыки, не забывая старые.

Проблема: катастрофическое забывание

Несмотря на впечатляющие возможности современных больших языковых моделей, они разделяют фундаментальное ограничение: не способны эффективно обучаться новому после завершения тренировки. Когда параметры модели обновляются новыми данными, она теряет навыки в ранее освоенных задачах — феномен, известный как катастрофическое забывание. Человеческий мозг не страдает от этого ограничения. Благодаря нейропластичности мозг непрерывно адаптирует свою структуру в ответ на новый опыт, формируя воспоминания и навыки, не перезаписывая старые.

Современные LLM компенсируют это ограничение двумя способами: через непосредственный контекст входного окна (по сути, кратковременная память) или через статические знания, закодированные при предварительном обучении (по сути, кристаллизованная долговременная память). Ни один из подходов не поддерживает подлинного непрерывного обучения. Традиционно исследователи боролись с катастрофическим забыванием через модификации архитектуры или улучшение правил оптимизации, но эти подходы рассматривали их как отдельные задачи. [1]

Ключевое открытие: архитектура и оптимизация — одно и то же

Центральное озарение Nested Learning обманчиво просто. Исследователи демонстрируют, что хорошо известные архитектурные компоненты — такие как механизм внимания в трансформерах — могут быть формализованы как простые модули ассоциативной памяти. Аналогично, сам процесс обучения (обратное распространение ошибки) может быть смоделирован как ассоциативная память, которая отображает точки данных на их локальные сигналы ошибки. В обоих случаях базовые вычисления одинаковы: обучение сопоставлять одно с другим в зависимости от того, насколько неожиданным оказался вход. [1]

Если архитектура и оптимизация — обе формы ассоциативной памяти, единственное различие между ними — частота обновления, то есть как часто корректируются их параметры. Внимание в трансформере обновляет свои ассоциации с каждым новым токеном (высокая частота), тогда как слои прямого распространения хранят знания из предварительного обучения и меняются редко (низкая частота). Задавая явную частоту обновления для каждого компонента, Nested Learning упорядочивает эти взаимосвязанные задачи оптимизации в «уровни», создавая структурированную иерархию — ядро новой парадигмы.

Стандартное глубокое обучение vs Nested Learning: единый взгляд

graph TD
    A["Стандартное глубокое обучение"] --> B["Архитектура\n(фиксированная структура)"]
    A --> C["Оптимизация\n(правило обучения)"]
    B -.->|рассматриваются раздельно| C
    
    D["Nested Learning"] --> E["Уровень 1: высокая частота\n(внимание/память последовательности)"]
    D --> F["Уровень 2: средняя частота\n(континуум памяти)"]
    D --> G["Уровень 3: низкая частота\n(прямое распространение/долговременная)"]
    E --> F
    F --> G
    
    style A fill:#ff6b6b,color:#fff
    style D fill:#4ecdc4,color:#fff

Source: По материалам Behrouz et al., NeurIPS 2025

Континуум систем памяти: память как спектр

Этот иерархический взгляд раскрывает мощный принцип проектирования, который исследователи называют «Continuum Memory System» (CMS). В стандартном трансформере память существует на двух крайностях: механизм внимания обеспечивает кратковременную память (удерживает непосредственный контекст), а нейронные сети прямого распространения — долговременную (хранят знания из предобучения). Между ними — ничего. [1]

CMS расширяет это до полного спектра модулей памяти, каждый из которых обновляется с различной, точно калиброванной частотой. Результат — значительно более богатая архитектура памяти, отражающая работу человеческого мозга на нескольких временных масштабах одновременно. Одни модули быстро адаптируются к новому входу (как рабочая память), другие меняются медленнее (как эпизодическая память), а глубочайшие слои обновляются крайне редко (как семантические знания). Этот многомасштабный подход напрямую решает проблему катастрофического забывания.

Hope: самомодифицирующаяся архитектура

Для валидации идей исследователи разработали Hope — самомодифицирующуюся рекуррентную архитектуру, построенную как вариант архитектуры Titans. Titans — это модули долговременной памяти, которые приоритизируют воспоминания по степени их неожиданности, но ограничены двумя уровнями обновления параметров. Hope полностью снимает это ограничение, допуская неограниченное число уровней обучения в контексте с CMS-блоками для масштабирования на более длинные контекстные окна. [1]

Наиболее поразительная способность Hope — самомодификация. Компоненты верхнего уровня могут влиять на скорость и фокус обучения нижних уровней. Архитектура может, по сути, оптимизировать собственную память через самореферентный процесс, создавая бесконечный цикл уровней обучения, углубляющийся по мере необходимости. Это аналогично тому, как префронтальная кора мозга может модулировать скорость обучения других областей мозга в зависимости от требований задачи.

Результаты бенчмарков

Категория задач	Hope	Titans	Samba	Transformer
Языковое моделирование (перплексия ↓)	Лучший	2-й	3-й	4-й
Рассуждения (точность ↑)	Лучший	2-й	3-й	4-й
NIAH Pass-Key	Почти идеально	Хорошо	Средне	Средне
NIAH Поиск слов	Лучший	Хорошо	Средне	Слабо
Непрерывное обучение	Значительно лучший	Средне	Слабо	Слабо

На широком наборе задач языкового моделирования и рассуждений Hope демонстрирует меньшую перплексию и более высокую точность, чем Titans, Samba и стандартные трансформеры. На бенчмарках Needle-In-A-Haystack (NIAH) для длинного контекста Hope показывает превосходное управление памятью. Критически важно, что Hope демонстрирует радикально лучшее непрерывное обучение, подтверждая центральное утверждение о том, что Nested Learning может смягчить или устранить катастрофическое забывание. [1][2]

Почему это важно

Последствия выходят за рамки бенчмарков. Если центральное озарение Nested Learning верно — что архитектура и оптимизация являются фундаментально одним концептом, работающим на различных временных масштабах, — это открывает совершенно новое измерение в проектировании моделей. Вместо выбора между более крупными моделями или лучшими оптимизаторами исследователи теперь могут изучать, как структурировать отношения между компонентами на разных скоростях обучения.

Практически решение катастрофического забывания трансформировало бы процесс развёртывания больших языковых моделей. Сегодня обновление продакшн-LLM новыми знаниями требует дорогостоящей дообучения, часто вызывающей регрессии существующих возможностей. Модель с подлинным непрерывным обучением могла бы обновляться инкрементально, без затратного и хрупкого цикла переобучения.

«Мы считаем, что парадигма Nested Learning предлагает надёжную основу для преодоления разрыва между ограниченной, забывающей природой текущих LLM и замечательными способностями человеческого мозга к непрерывному обучению», — пишут исследователи. [1] Будет ли эта амбиция полностью реализована — покажет время, однако фреймворк и ранние результаты указывают на многообещающее новое направление — то, которое приглашает исследовательское сообщество исследовать измерение, о существовании которого до сих пор никто не знал.

📚 Источники и ссылки

#	Source	Link
[1]	Nested Learning: The Illusion of Deep Learning Architectures (NeurIPS 2025) Behrouz et al., 2025	arxiv.org