Agentic Vision от Gemini: как Google научил ИИ увеличивать, кадрировать и аннотировать изображения как человек-аналитик

Новая функция Agentic Vision от Google превращает анализ изображений из одноразового процесса в итеративный цикл «Думай, Действуй, Наблюдай», где модель автономно увеличивает детали, аннотирует области и выполняет Python-код для проверки — повышая точность на 5-10%.

Ключевые выводы

Agentic Vision от Google, добавленная в Gemini 3 Flash в январе 2026 года, меняет подход ИИ к обработке изображений. Вместо анализа всего изображения сразу модель итеративно кадрирует, увеличивает, аннотирует и выполняет Python-код — цикл «Думай, Действуй, Наблюдай», дающий 5-10% улучшение качества на задачах детализированного визуального анализа.

Когда вы смотрите на фотографию оживлённой улицы, вы не обрабатываете её как единое статичное изображение. Глаза перемещаются между точками интереса — читают вывеску на заднем плане, рассматривают выражение лица прохожего, проверяют цвет светофора. Вы мысленно «увеличиваете», фокусируетесь на деталях и собираете понимание за несколько проходов. До сих пор ИИ-модели зрения так не работали — они обрабатывали изображение один раз и переходили к следующему.

Agentic Vision от Google, объявленная в январе 2026 года и развёрнутая в Gemini 3 Flash, фундаментально меняет этот подход. Функция превращает понимание изображений из статичного одноразового процесса в динамический итеративный рабочий процесс, где модель активно манипулирует изображением — кадрирует области, увеличивает детали, аннотирует зоны интереса и выполняет Python-код — прежде чем сформулировать окончательный ответ.

Цикл «Думай, Действуй, Наблюдай»

Agentic Vision работает через трёхфазный цикл, зеркально отражающий аналитическое мышление человека. В фазе «Думай» модель изучает изображение и определяет области, требующие детального осмотра. В фазе «Действуй» модель использует набор инструментов: кадрирование и увеличение, настройку контраста, обнаружение границ и выполнение Python-кода. В фазе «Наблюдай» модель анализирует улучшенное изображение и решает, достаточно ли информации для ответа.

Цикл Agentic Vision: Думай-Действуй-Наблюдай

graph LR
    A["Получить изображение + запрос"] --> B["ДУМАЙ: определи зоны интереса"]
    B --> C["ДЕЙСТВУЙ: кадрируй, увеличь, аннотируй"]
    C --> D["НАБЛЮДАЙ: анализируй улучшенный вид"]
    D --> E{"Достаточно информации?"}
    E -->|Нет| B
    E -->|Да| F["Сгенерировать итоговый ответ"]
    style A fill:#4285f4,color:#fff
    style F fill:#34a853,color:#fff

Source: На основе документации Google Blog и DeepMind

Итеративный подход даёт измеримые улучшения: Google сообщает о 5-10% повышении качества по большинству визуальных бенчмарков, с наибольшими приростами на задачах извлечения мелких деталей — чтение частично скрытых серийных номеров, расшифровка отражённого текста, подсчёт мелких объектов.

Выполнение Python-кода: техническое преимущество

Самый технически инновационный аспект — интеграция с выполнением Python-кода. Модель может писать и выполнять Python-скрипты с библиотеками обработки изображений OpenCV и PIL. Например, при запросе измерить угол между линиями на фотографии модель может обрезать область, применить обнаружение границ Canny, найти линии через преобразование Хафа и вычислить угол математически.

Практические применения: от производства до медицины

Промышленные применения особенно убедительны. В контроле качества на производстве, где инспекция требует осмотра мелких деталей на больших поверхностях, автономное увеличение подозрительных областей снижает и ложные срабатывания, и пропуски дефектов. В медицинской визуализации итеративный подход зеркалит работу радиологов — сканирование всего изображения, затем увеличение проблемных областей.

Обработка документов — ещё один ценный кейс. Формы, чеки, контракты, рукописные заметки часто содержат частично скрытый или повёрнутый текст. Способность Agentic Vision кадрировать, повернуть и улучшить текстовые области перед применением OCR значительно повышает точность извлечения.

Доступность и конкурентный ландшафт

Agentic Vision доступна через Gemini API в Google AI Studio и Vertex AI, а также в потребительском приложении Gemini. Функция эксклюзивна для Gemini 3 Flash — быстрой и доступной модели. Ни один конкурент пока не реплицировал этот итеративный подход: GPT-5.4 от OpenAI и Claude Opus 4.6 от Anthropic обрабатывают изображения за один проход без возможности автономной манипуляции. Agentic Vision даёт Google ощутимое техническое преимущество в задачах извлечения мелких деталей.