OpenAI представила революционную нейросеть o3, которая бьёт все рекорды

OpenAI совершила настоящий прорыв в области искусственного интеллекта. Представив свою новейшую модель o3, которая демонстрирует беспрецедентный уровень возможностей.

Особенно впечатляющих результатов модель достигла в решении сложнейшего бенчмарка ARC-AGI, справившись с 91% задач. Для сравнения: предыдущим моделям понадобилось целых 4 года, чтобы продвинуться от 0% в 2020 году до всего лишь 5% в 2024 году.

В области программирования o3 достигла поистине исторических результатов.

На платформе Codeforces модель получила рейтинг 2727, превзойдя даже главного научного сотрудника самой OpenAI. Более того, она продемонстрировала существенное улучшение на 22.8% в тестах SWE-Bench Verified по сравнению с предшественницей.

Математические способности новой модели также поражают воображение. На престижном конкурсе AIME 2024 она показала результат в 96.7%, допустив всего одну ошибку.

В простых математических вычислениях o3 в три раза превосходит показатели O1, решая 87% задач. А в особо сложных математических и логических задачах, где другие модели не превышают 2% успешных решений, o3 достигла отметки в 25.2%.

Однако эксперты отмечают, что несмотря на впечатляющие результаты, массового внедрения модели в ближайшее время ждать не стоит. Основная причина – экономическая.

По сравнению с O1 Pro, считающейся золотым стандартом соотношения цены и качества, o3 оказывается значительно дороже. На текущем этапе использование человеческого труда всё ещё остается более рентабельным для большинства бизнес-задач.

Интересный факт: компания намеренно пропустила версию O2, чтобы избежать путаницы с существующим брендом аналогичного названия. Сейчас o3 проходит тщательное тестирование на безопасность, и о сроках её публичного релиза пока не сообщается.

Эксперты считают, что хотя сама o3 может не произвести революцию в автоматизации бизнес-процессов, она прокладывает путь к созданию более доступных и эффективных моделей будущего.

Практическое применение ИИ пока остаётся наиболее эффективным в относительно простых, но трудоёмких задачах, таких как обработка документации, классификация запросов и написание базового кода.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.