Tencent представил мощнейшую «рассуждающую» модель Hunyuan-T1

Китайский гигант Tencent заявил, что его новая ИИ-модель Hunyuan-T1 способна конкурировать на равных с лучшими системами рассуждений OpenAI. Tencent активно применял метод обучения с подкреплением в процессе разработки, направив 96,7% вычислительных мощностей после основного обучения на улучшение логических рассуждений и согласование.

Результаты — в тесте MMLU-PRO, оценивающем знания в 14 предметных областях, Hunyuan-T1 набрал 87,2 балла, заняв второе место после модели o1 от OpenAI. В научных рассуждениях — 69,3 балла в сложнейшем тесте GPQA-diamond. В математике модель достигла феноменальных 96,2 балла на бенчмарке MATH-500, уступив лишь немного Deepseek-R1.

Для обучения Tencent применил прогрессивный подход с постепенным увеличением сложности задач. Компания также разработала уникальную систему самовознаграждения, в которой более ранние версии модели оценивали результаты новых версий, стимулируя постоянное совершенствование.

С технической точки зрения Hunyuan-T1 использует архитектуру Transformer Mamba, которая, по утверждению Tencent, обрабатывает длинные тексты вдвое быстрее обычных моделей в аналогичных условиях. Модель уже доступна через облачный сервис Tencent Cloud, а демонстрационная версия представлена на платформе Hugging Face.

Впрочем, эксперты отмечают, что бенчмарки — это всего лишь бенчмарки. По мере того как ведущие модели регулярно достигают точности более 90% на стандартных тестах, Google DeepMind представил более сложный тест — BIG-Bench Extra Hard (BBEH). Даже лучшие модели испытывают трудности с этим новым испытанием: топовая модель OpenAI, o3-mini (high), достигла лишь 44,8% точности.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.