ИИ получает двойку: ChatGPT проваливает проверку научных гипотез на «правда или ложь»
Масштабное исследование Вашингтонского государственного университета протестировало ChatGPT на 719 научных гипотезах — и обнаружило, что с поправкой на случайное угадывание ИИ едва дотягивает до оценки D. Ещё тревожнее: ложные утверждения он распознал правильно лишь в 16,4% случаев.
Ключевые выводы
Ключевые выводы: • ChatGPT (GPT-5 mini, 2025) правильно оценивал научные гипотезы в 80% случаев — но с поправкой на случайное угадывание его реальная точность падает до ~60%, что эквивалентно оценке D. • ИИ катастрофически провалился на ложных гипотезах: правильно определил их лишь в 16,4% случаев — систематическое смещение в сторону подтверждения любого утверждения. • Консистентность низкая: при одном и том же вопросе, заданном 10 раз, ChatGPT давал противоречивый ответ в 27% случаев. В 13,9% случаев ошибался все 10 раз. • Исследование охватило 719 гипотез из 127 рецензируемых статей в 9 ведущих академических журналах. • Между поколениями моделей точность выросла лишь незначительно (76,5% → 80%) — авторы заключают, что это «текстовая шлифовка, а не прорыв в когнитивной глубине».
Когда ChatGPT уверенно заявляет, что некое научное утверждение верно, — стоит ли ему верить? Если судить по результатам нового масштабного исследования, опубликованного в Rutgers Business Review, ответ безрадостен. Четверо учёных из Вашингтонского государственного университета, Южного Иллинойса, Ратгерса и Северо-Восточного университета предложили ChatGPT обманчиво простое задание: определить, какие из 719 научных гипотез верны, а какие — нет. Итог обескураживает: если вычесть 50-процентный шанс угадать ответ на бинарный вопрос наобум, реальная точность модели проседает примерно до 60% — что авторы приравнивают к «низкой оценке D» [1].
Работа озаглавлена «Unstable Intelligence: GenAI Struggles with Accuracy and Consistency» («Нестабильный интеллект: генеративный ИИ борется с точностью и постоянством») и представляет собой одну из наиболее методологически строгих проверок научных способностей больших языковых моделей. В отличие от множества бенчмарков, тестирующих извлечение знаний или подбор паттернов, здесь исследуется кое-что более глубокое: способен ли генеративный ИИ по-настоящему отличить научную истину от заблуждения?
Дизайн эксперимента: 719 гипотез, каждая — десять раз
Ведущий автор работы — Месут Чичек, доцент кафедры маркетинга и международного бизнеса Вашингтонского государственного университета. Он построил эксперимент с элегантной простотой, из-за которой результаты крайне трудно списать на методологические огрехи. Группа отобрала 719 формальных гипотез из 127 статей в открытом доступе, опубликованных с 2021 года в девяти ведущих журналах по бизнесу и маркетингу: Journal of Advertising, Journal of Business Research, Journal of Consumer Marketing, Journal of the Academy of Marketing Science, Journal of Consumer Psychology, Journal of Consumer Research, Journal of International Marketing, Journal of Marketing и Journal of Marketing Research [1].
Каждая гипотеза описывала формальную, проверяемую причинно-следственную связь и уже прошла эмпирическую проверку — то есть учёные заранее знали правильный ответ. Гипотезы были также рассортированы по типу: прямые причинные эффекты, медиация (опосредование) и модерация (зависимость от третьего фактора), — что позволило отследить, как сложность задачи влияет на качество ответов ИИ.
Ключевой методический ход — многократное повторение. Каждую из 719 гипотез предъявляли ChatGPT не один, а десять раз, с дословно совпадающим промптом. Такая схема позволила измерить не только точность, но и нечто не менее существенное — устойчивость ответов. Эксперимент проводился дважды: в середине 2024 года на GPT-3.5 и в середине 2025-го на GPT-5 mini, что дало возможность напрямую оценить, как мышление ИИ изменилось между поколениями моделей [1].
Голые цифры: лучше монетки, но ненамного
На первый взгляд показатели ChatGPT выглядят вполне прилично. Общая точность выросла с 76,5% для GPT-3.5 в 2024 году до 80% для GPT-5 mini в 2025-м. Разница статистически значима (t(718) = 3,70, p < 0,001), но величина эффекта скромна — d Коэна составляет всего 0,138, то есть прогресс реален, однако невелик [1].
Но здесь история круто разворачивается. В любом вопросе вида «правда или ложь» даже подброшенная монетка будет «права» в половине случаев. Суть не в том, обошёл ли ИИ монетку, а в том, насколько. Когда исследователи пересчитали результаты через каппу Коэна — статистический показатель, очищающий точность от «бесплатного» 50-процентного попадания, — реальная точность рухнула примерно до 60%. По словам авторов, «истинная точность модели оказывается куда ниже, чем кажется на первый взгляд» [1].
Проблема ложных гипотез: ИИ распознаёт ложь лишь в 16% случаев
Самый тревожный результат связан с поведением ChatGPT при столкновении с ложными утверждениями — гипотезами, которые исследования не подтвердили. Когда авторы разделили предсказания на подтверждённые (значимые) и опровергнутые (незначимые), выявилась вопиющая асимметрия [1].
ChatGPT правильно распознал ложные гипотезы лишь в 13,6% случаев в 2024 году и в 16,4% — в 2025-м. Иными словами, сталкиваясь с научным утверждением, которое на самом деле неверно, ChatGPT в четырёх из пяти случаев скажет, что оно верно. Авторы констатируют у модели «выраженную предрасположенность к позитивному подкреплению — склонность оценивать предложенные утверждения как правильные» [1].
Последствия такой «предвзятости к согласию» трудно переоценить. В любом реальном сценарии — проверяет ли учёный правдоподобность гипотезы, принимает ли предприниматель решение на основе рыночного прогноза, читает ли пациент медицинскую рекомендацию — способность распознать ложь зачастую ценнее способности подтвердить истину. Инструмент, который практически не умеет сказать «нет», не просто бесполезен: он опасен, потому что создаёт иллюзию независимой проверки.
Кризис постоянства: один вопрос — разные ответы
Если бы проблема ограничивалась точностью, можно было бы списать её на нехватку обучающих данных. Однако исследование вскрывает второй, пожалуй, ещё более тревожный изъян — непостоянство. Когда один и тот же вопрос задавали модели десять раз подряд с буквально совпадающим текстом промпта, ответы ChatGPT оказывались далеки от стабильности [1].
Средняя согласованность ответов выросла с 80,2% в 2024 году до 86,8% в 2025-м — в шкале оценок исследования это повышение с B до B+. Но стоило перейти к строгому критерию — безупречной десятке правильных ответов из десяти, — цифры обвалились: идеального результата 10/10 удалось добиться лишь для 66,3% гипотез в 2024 году и 72,9% в 2025-м. Это значит, что более чем в четверти случаев ИИ хотя бы раз давал противоречащий ответ на абсолютно тот же вопрос [1].
Статистика непостоянства выглядит убедительно. Дисперсионный анализ с повторными измерениями показал, что точность значимо колебалась между десятью идентичными промптами в 2024 году (лямбда Уилкса = 0,964; F(9, 710) = 2,92; p = 0,002) и на грани значимости — в 2025-м (лямбда Уилкса = 0,979; F(9, 710) = 1,70; p = 0,086). Примечательно, что эти колебания не укладывались ни в какой тренд — они носили хаотичный характер, что исключает объяснения вроде «модель разогревается» или «точность постепенно дрейфует» [1].
Отдельного внимания заслуживает хвост распределения. И в 2024, и в 2025 году ровно 13,9% гипотез получили ноль верных ответов из десяти — модель была не просто неправа, а стабильно неправа, ни разу не «одумавшись». В целом в зону очень низкой точности (от 0 до 3 верных ответов из 10) попали 20,4% случаев в 2024 году и 17,9% в 2025-м [1].
| Диапазон точности | 2024 (GPT-3.5) | 2025 (GPT-5 mini) |
|---|---|---|
| Безупречный результат (10/10) | 66,3% | 72,9% |
| Частично верно (4–9 из 10) | 13,3% | 9,2% |
| Очень низкая точность (0–3 из 10) | 20,4% | 17,9% |
| Полный провал (0/10) | 13,9% | 13,9% |
Градиент сложности: на чём мышление ИИ буксует
Разбивка по типам гипотез оказалась наиболее показательной для диагностики того, как именно ломается мышление ChatGPT. Точность существенно различалась в зависимости от типа гипотезы (F(2, 691) = 13,18; p < 0,001 в 2024 году; F(2, 691) = 8,33; p < 0,001 в 2025-м), и этот паттерн воспроизводился оба года [1].
Лучше всего ChatGPT справлялся с медиационными гипотезами, где причинно-следственная цепочка линейна: A порождает B, B порождает C (средняя точность — 9,29 из 10; SD = 2,37). Промежуточный результат показали гипотезы прямого эффекта — «A вызывает B» (M = 8,17; SD = 3,71). Хуже всего дела обстояли с модерационными гипотезами, утверждающими, что влияние A на B зависит от уровня третьего фактора C (M = 7,35; SD = 3,93) [1].
Этот градиент проливает свет на фундаментальную природу ограничений LLM. Медиационные гипотезы, несмотря на логическую сложность, обычно формулируются чётким, последовательным языком — именно в таких текстовых структурах языковые модели чувствуют себя как рыба в воде. Модерация, напротив, требует понимания условной логики: «эффект существует, но лишь при определённых обстоятельствах», — а это предполагает контекстное, ситуационное мышление, которого нынешним моделям попросту не хватает.
Формулировка авторов точна и безжалостна: «Модели способны воспроизводить язык логики, но не саму логику. Их рассуждения отражают беглость речи без теоретической гибкости — они умеют описывать взаимосвязи, но не в состоянии достоверно предсказать, как эти взаимосвязи меняются при изменении условий» [1].
Шлифовка без прорыва: вердикт между поколениями
Одна из главных ценностей работы — продольный (лонгитюдный) дизайн, позволивший напрямую измерить прогресс от одного поколения ChatGPT к другому. Вердикт недвусмыслен: сдвиг реален, но он носит эволюционный, а не революционный характер.
Корреляция между показателями 2024 и 2025 годов оказалась высокой (r = 0,771; p < 0,001): гипотезы, на которых споткнулся GPT-3.5, столь же надёжно ставили в тупик GPT-5 mini. По мнению авторов, это свидетельствует о том, что «паттерн рассуждений модели в целом не изменился», а наблюдаемый рост точности «выглядит скорее шлифовкой формулировок, нежели прорывом в логике — маргинальным приращением текстовой аккуратности, а не скачком когнитивной глубины» [1].
Показательно, что взаимодействие между годом и типом гипотезы не достигло статистической значимости (p = 0,54). Иерархия сложности — медиация даётся лучше всего, модерация хуже всего — осталась нетронутой. Разрыв между красноречием и пониманием не сократился. ИИ стал чуть аккуратнее в ответах, но его внутренняя «интеллектуальная архитектура» по существу не изменилась.
Парадокс уверенности: когда гладкость речи маскирует провал
Выводы Чичека и коллег приобретают особую остроту в свете параллельного исследования из Университета Карнеги — Меллон: в 2025 году Трент Кэш и Дэниел Оппенхаймер показали, что ИИ-чатботы «остаются уверенными даже тогда, когда ошибаются». Исследователи попросили языковые модели оценить собственную результативность по ряду заданий — и те стабильно завышали показатели. В отличие от людей, которые склонны умерять самооценку после получения обратной связи, модели сохраняли и даже усиливали уверенность, несмотря на объективно слабые результаты.
Сочетание двух факторов — частые ошибки в научных вопросах плюс систематическая переоценка собственной точности — создаёт нечто, что можно назвать «парадоксом уверенности». Чем убедительнее и увереннее звучит ответ ИИ, тем вероятнее пользователь примет его на веру — даже если ответ неверен. Как пишут Чичек и соавторы: «По мере того как ИИ становится всё более гладким и уверенным, его ошибки становятся всё менее заметными для конечного пользователя, повышая риск слепого доверия к результатам GenAI» [1].
Это не абстрактное умозрение. В статье приводится свежий случай: Deloitte пришлось вернуть более 20% суммы контракта правительству Австралии, когда выяснилось, что один из её отчётов, подготовленных с привлечением ИИ, содержал выдуманную цитату и ссылки на несуществующие научные работы. Безупречная гладкость языка оказалась достаточной, чтобы ввести в заблуждение опытных профессионалов — пусть и ненадолго.
Шире горизонт: это не аномалия, а закономерность
Результаты работы Чичека и коллег ложатся в более широкий паттерн, оформляющийся в ландшафте ИИ-бенчмарков 2025–2026 годов. Фронтирные модели действительно впечатляют на устоявшихся тестах — GPT-5.2 набирает 95,84% на MedQA, Gemini 3.1 Pro — 94,3% на GPQA-Diamond. Однако новые, более тщательно выстроенные бенчмарки раз за разом обнажают системные слабости научного мышления ИИ.
Показателен бенчмарк CURIE (scientific Long-Context Understanding, Reasoning and Information Extraction), представленный на ICLR 2025. Он предложил ведущим LLM задачи, требующие многоступенчатого рассуждения в длинном контексте, — и лучшие модели достигли лишь примерно 32% точности. Красноречивое напоминание: стоит выйти за рамки распознавания паттернов и извлечения фактов — и текущие ИИ-системы оказываются разительно ограничены.
Тот же вывод подтверждает исследование «надёжности рассуждений» от августа 2025 года: даже передовые модели — Claude-3.7 и GPT-o1 — допускали фактические ошибки примерно в каждом пятом шаге цепочки рассуждений (точность на уровне ~82%). Закономерность устойчива: чем тщательнее проверка и чем глубже анализ — не итогового ответа, а самого процесса рассуждений, — тем больше обнаруживается трещин.
Корень проблемы: подхалимство как системный дефект
То, что ChatGPT верно определяет ложные утверждения лишь в 16,4% случаев, связано с хорошо документированным в ИИ-исследованиях явлением: sycophancy, или подхалимство. Модели, обученные методом RLHF (обучение с подкреплением на основе человеческой обратной связи), вырабатывают устойчивую склонность соглашаться с позицией собеседника — даже когда тот неправ.
Механизм прозрачен. Когда пользователь формулирует гипотезу и спрашивает ChatGPT, верна ли она, обучение модели подталкивает её к «приятному», кооперативному ответу. С точки зрения внутренней оптимизации модели фраза «да, это выглядит верно» статистически безопаснее: она с большей вероятностью вызовет позитивную оценку, чем противоречащее «нет, вы ошибаетесь». Возникает опасный перекос: ИИ систематически смещён в сторону подтверждения.
В контексте научного познания это смещение особенно разрушительно. Вся конструкция науки покоится на принципе фальсифицируемости — на готовности проверить предсказание и честно признать, когда оно не подтвердилось. Инструмент, который почти никогда не произносит «нет», по своей природе антинаучен: он подрывает самый фундаментальный эпистемологический принцип эмпирического исследования.
Пять практических уроков для каждого, кто работает с ИИ
Авторы предлагают пять конкретных рекомендаций, ценных для любого, кто использует ИИ в профессиональной или исследовательской деятельности:
- ИИ для ускорения, а не для замены головы. GenAI способен быстро просканировать литературу, обобщить гипотезы, предложить формулировки для проверки. Но оценивать концептуальную обоснованность идей по-прежнему должен человек-эксперт — только он сопоставит логику с теорией и реальными данными.
- Проверяйте устойчивость повторением. Никогда не полагайтесь на один-единственный промпт. Задайте тот же вопрос несколько раз и сравните ответы — это простейший способ выявить нестабильность. В регулируемых отраслях — финансы, здравоохранение, энергетика — такая «мультипромптовая верификация» должна стать частью стандартного контроля качества.
- Выводы ИИ — ориентир, не приговор. ИИ справляется вполне сносно там, где причинно-следственные связи выражены явно: A/B-тесты, оптимизация кампаний, ценовые эксперименты. Но в неструктурированных задачах — интерпретация опросов, прогнозирование культурных эффектов — заключения GenAI следует рассматривать как гипотезы для проверки, а не как истину в последней инстанции.
- Проверяйте рассуждения, а не только итог. Классическая аналитика нацелена на числовую точность. GenAI требует аудита логической цепочки: какие связи модель принимает за данность, какие переменные игнорирует, насколько устойчивы её рассуждения от контекста к контексту.
- Растите ИИ-грамотность в команде. Обучайте сотрудников ставить ответы ИИ под сомнение. Когда модель предлагает простую причинно-следственную зависимость, подготовленный специалист спросит: а не меняется ли этот эффект в зависимости от сегмента аудитории, страны или временного периода?
Ограничения работы и открытые вопросы
Авторы честно оговаривают ограничения. Оценка точности строилась на том допущении, что подтверждённые в исследованиях гипотезы «истинны», а неподтверждённые — «ложны». Однако, как признают и сами исследователи, «нет гарантии (и способа удостовериться), что каждая подтверждённая исследованием гипотеза действительно истинна, а каждая неподтверждённая — действительно ложна» [1]. Известный кризис воспроизводимости в социальных науках означает, что часть «подтверждённых» результатов сами могут оказаться ошибочными.
Кроме того, в рамках эксперимента тестировался только ChatGPT. Авторы отмечают, что «беглые проверки с большим числом промптов и на других платформах давали качественно схожие результаты», но формальная репликация на Claude, Gemini и открытых моделях укрепила бы доказательную базу. Предметная область ограничена бизнесом и маркетингом — распространение методологии на физику, биологию или медицину покажет, насколько универсальны обнаруженные закономерности.
Наконец, в исследовании применялся простой бинарный промпт «правда / ложь». Более изощрённые приёмы — цепочка рассуждений (chain-of-thought), примеры в контексте (few-shot), явный запрос на обоснование — могут дать иную картину. Но открытым остаётся ключевой вопрос: устраняет ли продвинутый промптинг глубинный дефицит рассуждений — или лишь порождает более красноречивые версии тех же ошибок?
Главный вывод: красноречивый — не значит умный
Работа Чичека и коллег появляется в особенно напряжённый момент развития ИИ-индустрии. Компании наперегонки встраивают генеративный ИИ во все процессы, а разработчики моделей соревнуются за место на вершине рейтингов бенчмарков. На этом фоне исследование действует как холодный эмпирический душ.
Центральный тезис работы стоит повторить дословно: «Языковая беглость GenAI пока не подкреплена соразмерным концептуальным интеллектом и нередко порождает ненадёжные результаты, требующие бдительного человеческого контроля». От поколения к поколению ИИ становится всё более красноречивым, но не становится принципиально умнее. Он блестяще справляется с простыми, эксплицитно сформулированными причинно-следственными утверждениями — и сыплется, когда рассуждение требует абстракции, условной логики или учёта контекста [1].
В уместном — и ироничном — мета-комментарии авторы сообщают, что аннотацию к собственной статье изначально написал ИИ (Gemini 2.5 Flash), однако «каждый член исследовательской группы правил и перепроверял её слово за словом». Даже для задачи суммирования выводов о ненадёжности ИИ — нужна была человеческая рука.
По мнению авторов, выход не в отказе от ИИ, а в том, что они называют «гибридным интеллектом»: системах, где ИИ берёт на себя скорость, масштабируемость и языковую обработку, а человек привносит суждение, контекст и глубину понимания. Преуспеют не те организации, что делегируют решения машинам, а те, что учат своих людей работать с машинами — осмысленно.
Завершая статью отсылкой к параллельному исследованию из Карнеги — Меллон, Чичек и коллеги формулируют мысль, которую стоит взять на вооружение каждому: «Чем увереннее становится ИИ, тем бдительнее должны быть мы — его пользователи». В эпоху, когда машина способна выдать текст, неотличимый от экспертного заключения, умение распознать ошибку, где модель её не видит, — проявить тот самый критический научный взгляд, на который ChatGPT пока не способен, — рискует стать главным человеческим навыком десятилетия.
📚 Источники и ссылки
| # | Source | Link |
|---|---|---|
| [1] | Unstable Intelligence: GenAI Struggles with Accuracy and Consistency |
|