Google запускает Groundsource: как Gemini превращает миллионы новостных статей в глобальную систему прогнозирования наводнений
Наука и открытия март 12, 2026 📍 Mountain View, United States News

Google запускает Groundsource: как Gemini превращает миллионы новостных статей в глобальную систему прогнозирования наводнений

Google Research представил Groundsource — уникальный фреймворк, использующий Gemini для извлечения 2,6 миллиона исторических событий наводнений из мировых новостных архивов. Полученный набор данных теперь обеспечивает прогнозирование городских внезапных наводнений за 24 часа через платформу Flood Hub.

Ключевые выводы

Google Groundsource — первое крупномасштабное применение языковой модели для преобразования неструктурированных новостей в количественный набор данных о стихийных бедствиях, содержащий 2,6 миллиона записей о наводнениях в 150+ странах. Нейросети LSTM, обученные на этих данных, обеспечивают прогнозирование городских наводнений за 24 часа через Flood Hub. Методология достигла 82% практической точности, охватив 85–100% серьёзных событий, зарегистрированных традиционными системами мониторинга вроде GDACS.


12 марта 2026 года Google Research представил Groundsource — масштабируемый фреймворк, превращающий неструктурированные мировые новости в верифицированные, структурированные данные о стихийных бедствиях. Система использует большую языковую модель Gemini от Google для анализа приблизительно пяти миллионов новостных статей на 80 языках, извлечения и геолокации 2,6 миллиона исторических событий наводнений, охватывающих более 150 стран на данных начиная с 2000 года. Полученный открытый набор данных теперь обеспечивает работу нового поколения прогнозов городских внезапных наводнений, доступных через платформу Flood Hub от Google [1].

Релиз знаменует первое крупномасштабное развёртывание языковой модели для преобразования «неструктурированной памяти» мира — глобальных СМИ — в количественный базис для оценки природных опасностей, пригодный для обучения прогностических моделей. Google описывает инициативу как прямой ответ на устойчивое узкое место в климатической науке: в то время как сейсмические события отслеживаются едиными глобальными сенсорными сетями, гидрометеорологические бедствия, такие как внезапные наводнения, лишены стандартизованной инфраструктуры наблюдений, оставляя прогнозистов с фрагментированными, неполными записями.

Проблема «пустыни данных»

Точное прогнозирование внезапных наводнений долгое время страдало от того, что исследователи Google называют «пустыней данных». Традиционные системы мониторинга предлагают ценный, но ограниченный охват. Обсерватория наводнений Дартмута (DFO), использующая спутниковые снимки NASA и европейских космических агентств, в первую очередь фиксирует крупные, продолжительные наводнения — её записи ограничены облачной интерференцией, периодичностью пролёта спутников и разрешением.

Глобальная система оповещения о бедствиях и координации (GDACS) — совместная инициатива ООН и Еврокомиссии, ориентированная на гуманитарные последствия — располагает инвентарём примерно из 10 000 записей. Хотя это существенный объём для координационных целей, он совершенно недостаточен для обучения глобальных моделей ИИ, необходимых для локализованного прогнозирования быстроразвивающихся бедствий. Внезапные наводнения, которые возникают стремительно и часто в районах без инфраструктуры мониторинга, особенно недопредставлены в этих архивах [3].

Система Тип Охват Ограничения
DFO (Дартмут) Спутниковое картирование затоплений С 1985 г., тысячи событий Облачность, только крупные события
GFD Спутниковые контуры затоплений Крупномасштабные события Периодичность спутников, разрешение
GDACS (ООН/ЕК) Гуманитарные оповещения ~10 000 записей, реальное время Только события с высоким воздействием
Groundsource (Google) Данные из новостей через LLM 2,6 млн событий в 150+ странах Городской перекос, зависимость от СМИ

Как работает Groundsource: от новостей к данным для прогнозов

Конвейер Groundsource начинается с приёма статей, в которых наводнение является основной темой, из глобальных новостных источников. Пользовательский агент Google Read Aloud изолирует основной текст из публикаций на 80 языках, который затем стандартизуется на английский язык через Cloud Translation API. Этот многоязычный этап предобработки гарантирует, что местные новостные сообщения из развивающихся стран — где последствия наводнений часто наиболее тяжёлые, но наименее задокументированные — фиксируются наряду с англоязычными СМИ.

Критический этап извлечения выполняется Gemini, который направляется через строгий аналитический процесс верификации с помощью инженерных промптов. Модель применяет три аналитических слоя: классификацию (разделение реальных отчётов о наводнениях и обсуждений политики, оценок рисков или предупреждений), темпоральное рассуждение (привязка относительных ссылок вроде «в прошлый вторник» к дате публикации статьи) и пространственную точность (идентификация гранулярных местоположений вплоть до микрорайонов и улиц с последующим отображением на стандартизованные пространственные полигоны через Google Maps Platform).

Groundsource: от неструктурированных новостей к прогнозированию наводнений
graph TD
    A["Мировые новостные источники (80 языков)"] --> B["Извлечение текста (Read Aloud)"]
    B --> C["Перевод на английский (Cloud Translation API)"]
    C --> D["Анализ Gemini LLM"]
    D --> E["Классификация: реальное наводнение vs. предупреждение"]
    D --> F["Темпоральное рассуждение: привязка дат"]
    D --> G["Пространственная точность: геолокация"]
    E --> H["Верифицированные события наводнений"]
    F --> H
    G --> H
    H --> I["Набор данных Groundsource (2,6 млн событий)"]
    I --> J["Обучение нейросети LSTM"]
    J --> K["Прогнозы наводнений за 24 часа"]
    K --> L["Google Flood Hub"]

Валидация: 82% практической точности

Техническая валидация методологии Groundsource подтверждает её надёжность для высокоответственных исследовательских приложений. При ручной проверке 60% извлечённых событий оказались точными и по локации, и по времени. Ключевой показатель: 82% были достаточно точными, чтобы быть «практически полезными» для реального анализа — фиксируя правильный административный район или определяя событие в пределах одного дня от его зарегистрированного пика.

Охват Groundsource представляет собой то, что Google называет «масштабным расширением» по сравнению с существующими архивами. Пространственно-временное сопоставление показало, что Groundsource зафиксировал от 85% до 100% серьёзных наводнений, зарегистрированных GDACS в период с 2020 по 2026 год, демонстрируя способность соответствовать традиционному обнаружению крупных бедствий и одновременно выявлять на порядки больше локализованных событий, проскользнувших мимо существующих сетей мониторинга.

Source: Google Research / GDACS / DFO

Модель прогнозирования: нейронные сети LSTM

Набор данных Groundsource служит «слоем истины» для обучения предиктора внезапных наводнений, построенного на архитектуре рекуррентных нейронных сетей Long Short-Term Memory (LSTM). LSTM — класс нейросетей, предназначенных для обработки последовательных, зависимых от времени данных — хорошо зарекомендовали себя в гидрологическом моделировании. Google ранее продемонстрировал их эффективность для прогнозирования речных наводнений, где региональное обучение обеспечивает перенос знаний в регионы с дефицитом данных.

LSTM для прогнозирования внезапных наводнений интегрирует глобальные численные метеопрогнозы (осадки, влажность почвы, температуру) вместе со статическими физическими атрибутами: плотностью застройки, топографией и коэффициентами водопоглощения почв. Обучившись на атмосферных паттернах, исторически предшествовавших наводнениям, зафиксированным в новостях, модель экстраполирует эти паттерны на текущие погодные условия. Прогнозы охватывают территории с плотностью населения свыше 100 человек на квадратный километр — намеренный фокус на городской среде, где плотность исторических данных из СМИ и гуманитарные последствия наиболее значительны [2].

Развёртывание через Flood Hub

Прогнозы городских внезапных наводнений, сгенерированные обученной на Groundsource моделью, теперь доступны через Flood Hub от Google, значительно расширяя прежний фокус платформы на речные (русловые) наводнения. Flood Hub интегрируется с Google Search и Google Maps для доставки оповещений непосредственно пострадавшим сообществам, экстренным службам и гуманитарным организациям. Система обеспечивает до 24 часов предупреждения о быстроразвивающихся наводнениях — критическое окно, которое может означать разницу между организованной эвакуацией и катастрофой в плотной городской застройке.

Отраслевые последствия и перспективы

Groundsource представляет собой сдвиг парадигмы в сборе данных о бедствиях. Традиционные системы полагаются на физические сенсорные сети (сейсмографы, речные гидропосты, спутники) — инфраструктуру, которая дорога в развёртывании и обслуживании и принципиально ограничена в разрешении. Продемонстрировав, что достаточно продвинутая языковая модель может ретроспективно построить надёжный базис оценки опасностей из мировых новостных архивов, Google открыл потенциальный путь для восполнения пробелов в данных по другим категориям природных опасностей.

Google заявил, что методология Groundsource может быть применена к засухам, оползням, лавинам и тепловым волнам — всем типам опасностей, для которых точные исторические записи остаются скудными. Опора фреймворка на общедоступные новостные данные, а не на проприетарные сенсорные сети, также снижает порог входа для исследователей и институтов в развивающихся странах, которые лишены инфраструктуры мониторинга, но подвержены непропорционально высокому риску бедствий.

Превращая мировые новости в данные, пригодные для действия, мы не просто документируем прошлое — мы строим более устойчивое будущее.

Ограничения и открытые вопросы

Подход не лишён ограничений. Система наследует перекосы глобального новостного покрытия: городские территории, где медиа-плотность наиболее высока, представлены лучше сельских регионов. Google признаёт это и заявляет, что расширение охвата на негородские территории — приоритет текущих исследований. Кроме того, 60% точного совпадения по локации и времени предполагают, что хотя набор данных ценен в совокупности для обучения моделей, индивидуальные записи о событиях следует рассматривать с соответствующей статистической осторожностью.

Остаются также открытые вопросы о том, как методология справляется с медийным усилением — крупные события могут порождать сотни коррелированных статей, потенциально раздувая их представленность в наборе данных по сравнению с меньшими, но не менее значимыми событиями. Тем не менее, порог в 82% практической точности и почти полный охват серьёзных событий из каталога GDACS свидетельствуют о том, что эти перекосы не подрывают критически полезность набора данных для обучения прогностических моделей.

Новая глава ИИ в климатической науке

Groundsource появляется в момент, когда пересечение ИИ и климатической науки получает беспрецедентные инвестиции и внимание. Подход Google — использование фундаментальных моделей не как конечных приложений, а как инструментов извлечения данных для восполнения пробелов в физических сетях наблюдений — предлагает дополнительный путь к более часто обсуждаемым прямым применениям ИИ в прогнозировании погоды (таким как GraphCast от Google или GenCast от DeepMind). Набор данных свободно доступен исследовательскому сообществу, приглашая к независимой валидации и расширению. Для миллионов людей, живущих в районах, подверженных наводнениям по всему миру, практическая отдача ощутима: 24 дополнительных часа предупреждения о событии, которое ранее наступало практически без предварительного уведомления.

📚 Источники и ссылки

# Source Link
[1] Introducing Groundsource: Turning news reports into data with Gemini Google Research, 2026 research.google
[2] Google Flood Hub — Real-time global flood forecasting Google Research, 2026 sites.research.google
[3] Global Disaster Alert and Coordination System (GDACS) United Nations / European Commission, 2026 gdacs.org
Share X Reddit LinkedIn Telegram Facebook