Превью-версия Gemini 3 Pro набрала 130 баллов в специальном тесте на IQ для искусственного интеллекта. Это первый случай, когда модель достигла такого результата в оффлайн-бенчмарке Mensa. Ни одна другая система до этого не поднималась выше 126 баллов.
Тест основан на классическом Mensa Norway, но задачи написаны заново специально для проверки ИИ. Их не публикуют в открытом доступе, чтобы новые модели не могли заранее готовиться к этим вопросам. Это важное отличие от обычных тестов. Модели с компьютерным зрением видят задачи в виде картинок. Остальным объясняют смысл текстом. Такой подход делает оценку более честной.
Узнать подробнее про клуб ShareAI
Gemini 3 Pro опередила предыдущего лидера на 4 балла. Это была модель Grok 4 Heavy из подписки за 300 долларов. В ней над задачей работают сразу несколько версий модели, а потом система выбирает лучший ответ из предложенных вариантов. Следом в рейтинге идут Claude Opus 4.1, GPT-5 Thinking и GPT-5 Pro. Разрыв с прошлой моделью Google — Gemini 2.5 Pro — составил целых 20 баллов. Это большой скачок за одно поколение.
В обычном тесте Mensa Norway все топовые модели показывают результаты выше, чем в оффлайн-версии. Это говорит о том, что часть задач из классического теста попала в данные, на которых их учили. Поэтому оффлайн-бенчмарк дает более точную картину реальных способностей моделей.
Средний человек набирает в таких тестах 100 баллов. Результат Gemini 3 Pro соответствует уровню 2% лучших людей по оффлайн-тесту. По классическому Mensa Norway этот показатель еще выше — 0,3% от всех людей. Это очень высокий результат.
Автор теста Максим Лотт отмечает важный момент. Его оценка не означает, что машины победили людей в плане интеллекта. Тест проверяет только один узкий навык — умение разгадывать абстрактные матрицы по картинкам. Нужно находить закономерности и выбирать правильный вариант.
Настоящий человеческий интеллект намного шире этого. Он включает здравый смысл и интуицию. Важны мотивация, жизненный опыт и чувство ответственности. В этих областях люди пока остаются вне конкуренции. Машины хорошо решают формальные задачи, но не понимают контекст так, как люди.
Тест показывает прогресс в одной узкой области. Модели учатся лучше решать задачи на логику и находить паттерны в данных. Но это не делает их умнее людей в широком смысле слова.

