Alibaba представляет Qwen3.5-Omni: нативная мультимодальная ИИ-модель, которая видит, слышит, говорит и рассуждает в реальном времени

Команда Qwen из Alibaba выпустила Qwen3.5-Omni — революционную омнимодальную модель на базе новой архитектуры «Мыслитель-Оратор» с гибридным вниманием Mixture of Experts. Обученная на более чем 100 миллионах часов аудиовизуальных данных, модель достигает SOTA-результатов по 215 бенчмаркам при поддержке мультимодального взаимодействия в реальном времени на 113 языках.

Ключевые выводы

Ключевые выводы: • Qwen3.5-Omni использует бифуркационную архитектуру «Мыслитель-Оратор», где рассуждение и выражение обрабатываются отдельными MoE-компонентами для эффективного мультимодального взаимодействия. • Модель нативно обрабатывает текст, изображения, аудио и видео в едином пайплайне с контекстом 256K токенов. • Версия Plus достигает SOTA по 215 бенчмаркам, превосходя Gemini 3.1 Pro в аудиовизуальных задачах. • Три варианта (Plus, Flash, Light) покрывают задачи от максимальной точности до ультранизкой задержки. • Ключевые инновации: ARIA для стабильного синтеза речи и TMRoPE для темпорального аудиовизуального кодирования.

30 марта 2026 года исследовательская команда Qwen из Alibaba выпустила, пожалуй, самую архитектурно амбициозную мультимодальную ИИ-модель на сегодняшний день: Qwen3.5-Omni. В отличие от растущего класса моделей, которые соединяют отдельные модули зрения, аудио и языка, Qwen3.5-Omni спроектирована с нуля как нативная омнимодальная система — система, которая обрабатывает текст, изображения, аудио и видео в едином вычислительном пайплайне. Результат — модель, которая не просто понимает несколько модальностей, а рассуждает через них в реальном времени.

Релиз приходится на переломный момент в ландшафте ИИ, когда гонка за создание по-настоящему единых мультимодальных систем тихо стала определяющим полем битвы 2026 года. Gemini 3.1 Pro от Google, модели класса GPT-5 от OpenAI и мультимодальные варианты Llama от Meta — все заявили свои позиции в этом пространстве. Теперь Alibaba делает свой самый агрессивный ход — и технические основы говорят о том, что это нечто большее, чем инкрементальный прогресс.

Архитектура «Мыслитель-Оратор»: разделение когнитивных функций и выражения

В основе Qwen3.5-Omni лежит бифуркационная архитектура, которую Alibaba называет «Мыслитель-Оратор» (Thinker-Talker). Дизайн отражает принцип когнитивной науки: глубокое рассуждение и беглое выражение — это принципиально разные задачи, и принуждение одной системы обрабатывать оба процесса одновременно вносит неэффективность и ошибки.

Компонент «Мыслитель» выступает когнитивным движком. Он получает мультимодальные входные данные — визуальные сигналы через нативный Vision Encoder и аудио через модуль Audio Transformer (AuT) — и обрабатывает их с помощью техники TMRoPE (Temporal Multimodal Rotary Position Embedding). TMRoPE позволяет модели корректно выстраивать темпоральные связи между чередующимися аудио- и визуальными сигналами — проблема, которая исторически снижала производительность моделей, пытающихся работать с видео в реальном времени при синхронизированном аудио.

Компонент «Оратор» отвечает за генерацию — в частности, контекстуальную генерацию речи. Предыдущие омнимодальные модели страдали от класса ошибок, которые техническая документация Alibaba описывает как «нестабильность речи»: неправильное произношение, пропуск слов и нарушения каденции, возникающие, когда модель одновременно рассуждает и говорит. Для решения этой проблемы «Оратор» использует ARIA (Adaptive Rate Interleave Alignment) — механизм, который динамически выравнивает текстовые и речевые единицы для предотвращения этих артефактов.

Критически важно, что оба компонента — «Мыслитель» и «Оратор» — работают на слоях гибридного внимания Mixture of Experts (MoE). Этот архитектурный выбор означает, что модель активирует лишь подмножество своих общих параметров для каждого входного токена, обеспечивая очень высокую ёмкость для сложных рассуждений при сохранении управляемых затрат на инференс — критически важное соображение для приложений реального времени.

Архитектура Qwen3.5-Omni «Мыслитель-Оратор»

graph TD
    A["Мультимодальный вход"] --> B["Vision Encoder"]
    A --> C["Audio Transformer (AuT)"]
    A --> D["Текстовый токенизатор"]
    B --> E["МЫСЛИТЕЛЬ\n(Движок рассуждений)\nHybrid-Attention MoE\n+ TMRoPE"]
    C --> E
    D --> E
    E --> F["ОРАТОР\n(Движок выражения)\nHybrid-Attention MoE\n+ ARIA Alignment"]
    F --> G["Текстовый выход"]
    F --> H["Речевой выход"]
    F --> I["Мультимодальный ответ"]

Масштаб обучения: 100 миллионов часов аудиовизуальных данных

Масштаб обучающих данных Qwen3.5-Omni впечатляет даже по стандартам 2026 года. Модель прошла предобучение на массивных текстовых и визуальных корпусах — в соответствии с более широким семейством Qwen3.5 — но дополнительно обработала более 100 миллионов часов аудиовизуальных данных. Это позволяет модели развивать нативное понимание темпоральных мультимедиа: разговоров с визуальным контекстом, лекций со слайдами, видеонарративов и реальных сцен с окружающим аудио.

Такой подход к обучению разительно контрастирует с паттерном «адаптеров», характерным для ранних мультимодальных моделей, где предобученная LLM дооснащалась модулями зрения или аудио через файнтюнинг. Совместное предобучение Qwen3.5-Omni означает, что модель учится кросс-модальным представлениям с нуля, потенциально обеспечивая более глубокое рассуждение о связях между тем, что она видит и что слышит.

Три уровня: Plus, Flash и Light

Понимая, что разные приложения требуют различных компромиссов между точностью и задержкой, Alibaba выпускает Qwen3.5-Omni в трёх вариантах:

Вариант	Целевая оптимизация	Лучше всего для
Plus	Максимальная точность и глубина рассуждений	Сложный анализ, исследования, ответственные решения
Flash	Высокая пропускная способность, низкая задержка	Разговорный ИИ в реальном времени, клиентский сервис, живой перевод
Light	Минимальный вычислительный след	Edge-деплой, мобильные приложения, бюджетные рабочие нагрузки

Все три варианта разделяют базовую архитектуру «Мыслитель-Оратор» и поддерживают контекстное окно 256K токенов — достаточно для обработки более 10 часов непрерывного аудиовхода или более 400 секунд видео 720P при 1 кадре в секунду. Различия заключаются в количестве активных параметров на токен и глубине цепочек рассуждений, которые модель способна поддерживать.

Результаты бенчмарков: SOTA по 215 оценкам

Согласно техническим данным Alibaba, вариант Qwen3.5-Omni-Plus достиг SOTA-результатов по 215 независимым бенчмаркам, охватывающим аудиопонимание, аудиовизуальное рассуждение и задачи взаимодействия в реальном времени. Широта этого заявления примечательна — 215 бенчмарков охватывают необычно обширную поверхность оценки, что свидетельствует о приоритете обобщения перед оптимизацией под конкретные тесты.

Наиболее акцентированное сравнение в материалах Alibaba — с Gemini 3.1 Pro от Google. Qwen3.5-Omni-Plus, по заявлениям, превосходит Gemini 3.1 Pro в общем аудиопонимании, рассуждении, распознавании, переводе и диалоговых задачах. Аудиовизуальное понимание описывается как достигшее паритета с Gemini 3.1 Pro — значительное заявление, учитывая доминирующую позицию Google в мультимодальном ИИ. При этом визуальные и текстовые возможности модели заявлены на уровне стандартных моделей Qwen3.5 аналогичного масштаба параметров, что говорит об отсутствии регрессии от омнимодального обучения.

Source: Технические данные Alibaba Qwen Team, март 2026

Мультиязычная речь: 113 языков на входе, 36 на выходе

Одна из наиболее практически значимых возможностей Qwen3.5-Omni — мультиязычная поддержка речи. Модель способна распознавать речь на 113 языках и диалектах — уровень покрытия, сопоставимый со специализированными ASR-системами от Google и Meta — и генерировать речь на 36 языках. Такая асимметрия между распознаванием и генерацией типична для речевых моделей (понимание проще генерации), однако охват в 113 языков ставит Qwen3.5-Omni в сильную позицию для глобального развёртывания.

Модель также поддерживает несколько продвинутых возможностей взаимодействия, выходящих за рамки традиционного ASR: семантическое прерывание (модель может быть прервана на полуслове и контекстно скорректирует ответ), автоматическое распознавание намерения смены говорящего (определяет завершение речи без явных сигналов) и возможности клонирования голоса для персонализированного речевого вывода.

Конкурентный ландшафт: нативная vs «сшитая» мультимодальность

Qwen3.5-Omni выходит на рынок, который стремительно разделяется между двумя архитектурными философиями. С одной стороны — «сшитые» модели, такие как ранние GPT-4V или мультимодальные варианты на базе Llama, где предобученные унимодальные компоненты соединяются через адаптеры или механизмы кросс-аттеншна. С другой стороны — «нативные» омнимодальные системы, где все модальности совместно обучаются с нуля. Семейство Gemini от Google стало первой крупной нативной омнимодальной системой; Qwen3.5-Omni теперь является наиболее мощным открытым претендентом на этот подход.

Практическая разница принципиальна. Нативные омнимодальные модели способны рассуждать через границы модальностей — понимая, что устный вопрос относится к визуальному элементу, или что аудиоподсказка противоречит тому, что показано на экране. «Сшитые» модели часто испытывают трудности с такими задачами кросс-модального вывода, поскольку их компоненты никогда не обучались делить представления. Решение Alibaba вложиться в нативное предобучение на 100 миллионах часов аудиовизуальных данных — это ставка на то, что это архитектурное преимущество будет накапливаться со временем.

Доступность и варианты подключения

Qwen3.5-Omni доступна через множество каналов: по API на платформе Alibaba Cloud Model Studio (с поддержкой офлайн-пакетной обработки и режима реального времени с низкой задержкой), через интерактивный интерфейс chat.qwen.ai, а также на платформах хостинга моделей, включая Hugging Face и ModelScope. Более широкое семейство Qwen3.5 выпущено под лицензией Apache 2.0, хотя доступность конкретных весов Omni-варианта для самостоятельного хостинга следует уточнять через официальные каналы.

Для предприятий, оценивающих мультимодальные ИИ-платформы, трёхуровневая структура Qwen3.5-Omni предлагает необычно гибкую модель развёртывания. Вариант Light обеспечивает сценарии edge- и мобильного деплоя, традиционно являвшиеся доменом специализированных, более мелких моделей. Вариант Flash нацелен на производственные рабочие нагрузки с высокой пропускной способностью, где критична задержка. А вариант Plus напрямую конкурирует с самыми мощными моделями от Google и OpenAI в задачах сложного рассуждения.

Что это значит для гонки мультимодального ИИ

Qwen3.5-Omni представляет собой значительную точку перелома в глобальном ландшафте ИИ. Alibaba — которая тихо развила семейство Qwen из конкурентоспособной LLM в одну из наиболее функциональных открытых модельных экосистем — теперь демонстрирует, что нативный омнимодальный ИИ более не является исключительной территорией Gemini от Google. Архитектура «Мыслитель-Оратор» привносит подлинную архитектурную новизну, масштаб обучения колоссален, а заявления по бенчмаркам, в случае независимого подтверждения, поставят эту модель на передний край мультимодальных возможностей.

Вопрос теперь в том, окажется ли подход Alibaba — разделение рассуждений и выражения, масштабирование через MoE и масштабные инвестиции в совместное аудиовизуальное предобучение — правильной архитектурной ставкой для следующего поколения ИИ-систем. Если независимые оценки подтвердят заявления команды, Qwen3.5-Omni может изменить представление индустрии о создании моделей, которые действительно видят, слышат и понимают мир одновременно.

📚 Источники и ссылки

#	Source	Link
[1]	Qwen3.5-Omni: Official Blog Post Qwen Team, 2026	qwen.ai
[2]	Qwen Model Repository on Hugging Face Qwen Team, 2026	huggingface.co
[3]	QwenLM GitHub Repository Qwen Team, 2026	github.com
[4]	Qwen Models on ModelScope Alibaba Qwen Team, 2026	modelscope.cn