Новая модель способна не просто отвечать на вопросы, но и анализировать сложные задачи. Модель «заточена» на решение сложных вопросов без очевидных ответов, выполнение задач с логическими рассуждениями, создание стратегий и планов, анализ данных и обработку больших массивов информации.
Также, в рамках тестирования Яндекс наряду с собственной моделью предоставляет пользователям доступ к альтернативной системе DeepSeek R1. Это напоминает стратегию Perplexity с предложением нескольких SOTA-моделей, что позволит собрать максимальную обратную связь.
Процесс создания этой технологии включал несколько этапов сложного обучения. Сначала базовая претрейн-модель прошла тренировку на ответах YandexGPT 5 Pro, затем последовал дополнительный этап обучения с оптимизированным датасетом. Финальной стадией стало масштабное обучение с подкреплением и использованием технологии RLHF. Для ускорения этого процесса Яндекс задействовал собственную разработку YaFSDP, доступную в открытом доступе.
Компания экспериментирует как с онлайн, так и с оффлайн обучением с подкреплением, используя пары вопрос-ответ со стадии обучения YandexGPT 5 Pro.
Протестировать новую технологию можно уже сейчас в чате с Алисой при наличии подписки Плюс с опцией Про. Несмотря на то, что DeepSeek R1 требует значительно больше ресурсов для работы, чем YandexGPT 5, компания считает важным предоставить пользователям возможность сравнения и выбора, что поможет в дальнейшей доработке системы на основе реальных пользовательских сценариев.