Agentic Vision от Gemini: как Google научил ИИ увеличивать, кадрировать и аннотировать изображения как человек-аналитик
Новая функция Agentic Vision от Google превращает анализ изображений из одноразового процесса в итеративный цикл «Думай, Действуй, Наблюдай», где модель автономно увеличивает детали, аннотирует области и выполняет Python-код для проверки — повышая точность на 5-10%.
Ключевые выводы
Agentic Vision от Google, добавленная в Gemini 3 Flash в январе 2026 года, меняет подход ИИ к обработке изображений. Вместо анализа всего изображения сразу модель итеративно кадрирует, увеличивает, аннотирует и выполняет Python-код — цикл «Думай, Действуй, Наблюдай», дающий 5-10% улучшение качества на задачах детализированного визуального анализа.
Когда вы смотрите на фотографию оживлённой улицы, вы не обрабатываете её как единое статичное изображение. Глаза перемещаются между точками интереса — читают вывеску на заднем плане, рассматривают выражение лица прохожего, проверяют цвет светофора. Вы мысленно «увеличиваете», фокусируетесь на деталях и собираете понимание за несколько проходов. До сих пор ИИ-модели зрения так не работали — они обрабатывали изображение один раз и переходили к следующему.
Agentic Vision от Google, объявленная в январе 2026 года и развёрнутая в Gemini 3 Flash, фундаментально меняет этот подход. Функция превращает понимание изображений из статичного одноразового процесса в динамический итеративный рабочий процесс, где модель активно манипулирует изображением — кадрирует области, увеличивает детали, аннотирует зоны интереса и выполняет Python-код — прежде чем сформулировать окончательный ответ.
Цикл «Думай, Действуй, Наблюдай»
Agentic Vision работает через трёхфазный цикл, зеркально отражающий аналитическое мышление человека. В фазе «Думай» модель изучает изображение и определяет области, требующие детального осмотра. В фазе «Действуй» модель использует набор инструментов: кадрирование и увеличение, настройку контраста, обнаружение границ и выполнение Python-кода. В фазе «Наблюдай» модель анализирует улучшенное изображение и решает, достаточно ли информации для ответа.
Итеративный подход даёт измеримые улучшения: Google сообщает о 5-10% повышении качества по большинству визуальных бенчмарков, с наибольшими приростами на задачах извлечения мелких деталей — чтение частично скрытых серийных номеров, расшифровка отражённого текста, подсчёт мелких объектов.
Выполнение Python-кода: техническое преимущество
Самый технически инновационный аспект — интеграция с выполнением Python-кода. Модель может писать и выполнять Python-скрипты с библиотеками обработки изображений OpenCV и PIL. Например, при запросе измерить угол между линиями на фотографии модель может обрезать область, применить обнаружение границ Canny, найти линии через преобразование Хафа и вычислить угол математически.
Практические применения: от производства до медицины
Промышленные применения особенно убедительны. В контроле качества на производстве, где инспекция требует осмотра мелких деталей на больших поверхностях, автономное увеличение подозрительных областей снижает и ложные срабатывания, и пропуски дефектов. В медицинской визуализации итеративный подход зеркалит работу радиологов — сканирование всего изображения, затем увеличение проблемных областей.
Обработка документов — ещё один ценный кейс. Формы, чеки, контракты, рукописные заметки часто содержат частично скрытый или повёрнутый текст. Способность Agentic Vision кадрировать, повернуть и улучшить текстовые области перед применением OCR значительно повышает точность извлечения.
Доступность и конкурентный ландшафт
Agentic Vision доступна через Gemini API в Google AI Studio и Vertex AI, а также в потребительском приложении Gemini. Функция эксклюзивна для Gemini 3 Flash — быстрой и доступной модели. Ни один конкурент пока не реплицировал этот итеративный подход: GPT-5.4 от OpenAI и Claude Opus 4.6 от Anthropic обрабатывают изображения за один проход без возможности автономной манипуляции. Agentic Vision даёт Google ощутимое техническое преимущество в задачах извлечения мелких деталей.