DeepSeek V4 выходит с триллионом параметров и 40% экономией памяти, бросая вызов западной ИИ-гегемонии
Китайская ИИ-лаборатория DeepSeek выпускает модель V4 с новой архитектурой MODEL1, сокращающей потребление памяти на 40% и использующей разреженное FP8-декодирование, обеспечивая передовую производительность за долю стоимости американских конкурентов.
Ключевые выводы
DeepSeek V4 с триллионом параметров и архитектурным прорывом MODEL1 бросает вызов западной ИИ-гегемонии, достигая сравнимой производительности при значительно меньших ресурсах. Модель демонстрирует, что китайские лаборатории могут конкурировать на уровне frontier-моделей.
Китайская ИИ-лаборатория DeepSeek выпустила модель V4 — большую языковую модель с триллионом параметров, внедряющую архитектурные инновации, которые позволяют достичь производительности мирового класса при кардинально меньших затратах, чем у западных конкурентов.
Технические инновации
DeepSeek V4 представляет два ключевых архитектурных прорыва. Архитектура MODEL1 реструктурирует слои внимания и прямого прохода таким образом, что потребление памяти снижается на 40% по сравнению с сопоставимыми моделями — без значительной потери качества. Второе нововведение — разреженное FP8-декодирование, использующее 8-битную с плавающей точкой арифметику для инференса.
Практический результат: DeepSeek V4 обеспечивает возможности передового класса за долю стоимости, требуемой западными конкурентами. По оценкам, обучение модели обошлось в $5–6 миллионов — против $100+ миллионов для GPT-5.3 и $50+ миллионов для Gemini 3.1 Pro.
Результаты на бенчмарках
| Модель | Параметры | Использование памяти | Стоимость обучения (оценка) |
|---|---|---|---|
| DeepSeek V4 | 1 триллион | На 40% меньше аналогов | $5–6 млн |
| GPT-5.3 | ~1,5 триллиона (оценка) | Стандартная трансформерная архитектура | $100+ млн |
| Gemini 3.1 Pro | ~1,2 триллиона | Оптимизация для Google TPU | $50+ млн |
| Claude Opus 4.6 | Не раскрыто | Адаптивные рассуждения | $75+ млн |
Последствия для глобальной ИИ-гонки
DeepSeek V4 продолжает паттерн, впервые проявившийся в ранних моделях DeepSeek: демонстрацию того, что передовой ИИ может быть создан значительно дешевле, чем принято считать, ставя под сомнение предположение, что для конкуренции необходимы миллиарды долларов инвестиций.
Модель выпущена с частичным открытым исходным кодом, в соответствии с практикой DeepSeek предоставлять свои модели для исследовательского и коммерческого использования. Это продолжает укреплять позицию Китая как альтернативного центра ИИ-инноваций, способного конкурировать с западными компаниями, имея доступ к менее мощному оборудованию из-за экспортных ограничений США.