DeepSeek V4 выходит с 1 триллионом параметров и сокращением потребления памяти на 40%

Китайская лаборатория ИИ DeepSeek представляет модель V4 с новой архитектурой MODEL1, которая сокращает потребление памяти на 40% и использует разреженное FP8-декодирование, обеспечивая производительность уровня frontier-моделей при значительно меньших затратах.

Ключевые выводы

Китайская лаборатория DeepSeek выпустила модель V4 с триллионом параметров и архитектурой MODEL1, которая реструктурирует слои трансформера для 40% экономии памяти. Модель бросает вызов западным лидерам, достигая сопоставимой производительности при значительно меньших затратах на обучение.

Китайская исследовательская лаборатория DeepSeek представила модель V4 — большую языковую модель с одним триллионом параметров, демонстрирующую ряд технических инноваций, ставящих под сомнение предположение о том, что frontier-ИИ неизбежно требует огромных вычислительных бюджетов западных технологических гигантов. Модель, выпущенная в марте 2026 года, использует новую архитектуру MODEL1, сокращающую потребление памяти на 40% по сравнению с моделями аналогичного масштаба предыдущего поколения.

Технические инновации

DeepSeek V4 вводит два ключевых архитектурных усовершенствования. Архитектура MODEL1 реструктурирует слои внимания и прямого прохода для более эффективного совместного использования памяти между компонентами модели, сокращая общий объём потребляемой памяти на 40% без потери производительности. Разреженное FP8-декодирование — техника, избирательно активирующая только наиболее релевантные параметры при инференсе — дополнительно снижает вычислительные требования, позволяя модели работать на значительно меньшем объёме оборудования.

Практический результат: DeepSeek V4 способна обеспечить возможности уровня frontier-моделей при значительно меньшей стоимости, чем модели OpenAI, Google или Anthropic. Это ценовое преимущество делает DeepSeek всё более привлекательной для организаций, которые не могут обосновать инвестиции в инфраструктуру, необходимую для западных альтернатив.

Последствия для глобальной гонки ИИ

DeepSeek V4 продолжает тенденцию, впервые проявившуюся в более ранних моделях компании: архитектурные инновации могут заменить наращивание вычислительных мощностей грубой силой. Пока американские компании продолжают строить всё более крупные GPU-кластеры, подход DeepSeek демонстрирует, что стоимость обучения frontier-моделей может драматически снизиться благодаря алгоритмической эффективности — развитие, способное демократизировать доступ к передовым ИИ-возможностям по всему миру.

Модель выпущена с частичным открытым исходным кодом, что соответствует практике DeepSeek по обеспечению доступности своих моделей для исследовательского сообщества. Эта открытость в сочетании со стоимостной эффективностью архитектуры позиционирует DeepSeek как всё более серьёзного конкурента устоявшимся западным ИИ-лабораториям.