91% точности — и всё равно катастрофа: Google AI Overviews врут сотни тысяч раз в минуту

Google обрабатывает около 5 триллионов поисковых запросов в год. AI Overviews — краткие ответы с ИИ, которые появляются прямо над результатами поиска — дают правильный ответ примерно в 91% случаев. Цифра в 91% кажется убедительной. Но остальные 9% — это десятки миллионов ложных ответов каждый час и сотни тысяч каждую минуту.

Такие цифры приводит анализ стартапа Oumi, проведённый по заказу New York Times. Для тестирования использовали SimpleQA — стандартный бенчмарк для оценки точности ИИ, разработанный OpenAI. Сначала тестировали версию на базе Gemini 2 (октябрь 2025), потом — на Gemini 3 (февраль 2026). В каждом раунде — 4326 поисковых запросов.

Gemini 2 отвечал точно лишь в 85% случаев. Gemini 3 улучшился до 91%. Но прогресс неполный: доля «необоснованных» ответов — когда система ссылается на источники, которые на самом деле не подтверждают сказанное — выросла с 37% до 56%. Новая модель увереннее, но при этом чаще выдумывает подтверждения.

Отдельная проблема — поведение пользователей. Только 8% людей проверяют ответы ИИ. Почти 80% продолжают доверять системе даже после явных ошибок. Исследователи назвали это «когнитивной капитуляцией»: авторитетный тон языковых моделей отключает критическое мышление.

Google заявил, что анализ Oumi некорректен и «не отражает реальные поисковые запросы пользователей». Однако внутреннее тестирование самого Google показало: Gemini 3 выдаёт неверную информацию в 28% случаев — данные, которые компания не оспаривает.

AI Overviews продолжают работать в штатном режиме.