Согласно анализу, проведенному некоммерческим исследовательским институтом Epoch AI, индустрия ИИ в скором времени может столкнуться с существенным снижением производительности «рассуждающих» ИИ-моделей уже в течение этого года.
Рассуждающие модели, такие как o3 от OpenAI, в последние месяцы демонстрировали значительный рост показателей в тестах производительности ИИ, однако недостатком является увеличение времени выполнения задач по сравнению с традиционными моделями.
Процесс разработки рассуждающих моделей начинается с обучения обычной модели на огромных массивах данных, после чего применяется метод обучения с подкреплением (reinforcement learning). Этот метод фактически предоставляет модели «обратную связь» по ее решениям сложных задач, позволяя ей совершенствоваться.
До недавнего времени ведущие лаборатории ИИ, такие как OpenAI, не задействовали огромные вычислительные мощности на этапе обучения с подкреплением при тренировке рассуждающих моделей, отмечают исследователи Epoch AI.
Однако ситуация меняется. OpenAI сообщила, что для обучения модели o3 было использовано примерно в 10 раз больше вычислительных ресурсов, чем для ее предшественницы o1. Epoch предполагает, что большая часть этих ресурсов была направлена именно на обучение с подкреплением.
Кроме того, исследователь OpenAI Дэн Робертс недавно раскрыл, что будущие планы компании предусматривают приоритетное использование значительно больших вычислительных мощностей для обучения с подкреплением, даже больших, чем для начального обучения модели.
Несмотря на это, согласно выводам Epoch AI, существует верхний предел вычислительной мощности, которую можно эффективно применить к обучению с подкреплением, что и может стать причиной замедления прогресса рассуждающих ИИ-моделей в обозримом будущем.