DeepSeek V4 выходит с триллионом параметров и 40% экономией памяти, бросая вызов западной ИИ-гегемонии

Китайская ИИ-лаборатория DeepSeek выпускает модель V4 с новой архитектурой MODEL1, сокращающей потребление памяти на 40% и использующей разреженное FP8-декодирование, обеспечивая передовую производительность за долю стоимости американских конкурентов.

Ключевые выводы

DeepSeek V4 с триллионом параметров и архитектурным прорывом MODEL1 бросает вызов западной ИИ-гегемонии, достигая сравнимой производительности при значительно меньших ресурсах. Модель демонстрирует, что китайские лаборатории могут конкурировать на уровне frontier-моделей.

Китайская ИИ-лаборатория DeepSeek выпустила модель V4 — большую языковую модель с триллионом параметров, внедряющую архитектурные инновации, которые позволяют достичь производительности мирового класса при кардинально меньших затратах, чем у западных конкурентов.

Технические инновации

DeepSeek V4 представляет два ключевых архитектурных прорыва. Архитектура MODEL1 реструктурирует слои внимания и прямого прохода таким образом, что потребление памяти снижается на 40% по сравнению с сопоставимыми моделями — без значительной потери качества. Второе нововведение — разреженное FP8-декодирование, использующее 8-битную с плавающей точкой арифметику для инференса.

Практический результат: DeepSeek V4 обеспечивает возможности передового класса за долю стоимости, требуемой западными конкурентами. По оценкам, обучение модели обошлось в $5–6 миллионов — против $100+ миллионов для GPT-5.3 и $50+ миллионов для Gemini 3.1 Pro.

Результаты на бенчмарках

Модель	Параметры	Использование памяти	Стоимость обучения (оценка)
DeepSeek V4	1 триллион	На 40% меньше аналогов	$5–6 млн
GPT-5.3	~1,5 триллиона (оценка)	Стандартная трансформерная архитектура	$100+ млн
Gemini 3.1 Pro	~1,2 триллиона	Оптимизация для Google TPU	$50+ млн
Claude Opus 4.6	Не раскрыто	Адаптивные рассуждения	$75+ млн

Последствия для глобальной ИИ-гонки

DeepSeek V4 продолжает паттерн, впервые проявившийся в ранних моделях DeepSeek: демонстрацию того, что передовой ИИ может быть создан значительно дешевле, чем принято считать, ставя под сомнение предположение, что для конкуренции необходимы миллиарды долларов инвестиций.

Модель выпущена с частичным открытым исходным кодом, в соответствии с практикой DeepSeek предоставлять свои модели для исследовательского и коммерческого использования. Это продолжает укреплять позицию Китая как альтернативного центра ИИ-инноваций, способного конкурировать с западными компаниями, имея доступ к менее мощному оборудованию из-за экспортных ограничений США.