ByteDance выпустил модель Seed-OSS-36B с контекстом 512 тысяч токенов

ByteDance выпустил модель Seed-OSS-36B с контекстом 512 тысяч токенов

Исследовательское подразделение Seed Team компании ByteDance выпустило семейство открытых больших языковых моделей Seed-OSS-36B с рекордным контекстным окном 512 тысяч токенов.  Архитектурная линейка включает три специализированных варианта с различными обучающими парадигмами.

Базовая модель Seed-OSS-36B-Base представлена в двух конфигурациях - с интеграцией синтетических данных и без них. Версия с синтетическими данными ориентирована на максимальную производительность в стандартизированных бенчмарках и коммерческом использовании.

Альтернативная несинтетическая конфигурация обеспечивает исследователям нейтральный фундамент для экспериментального дообучения без потенциальных искажений от искусственно генерированных данных.

Специализированная модель Seed-OSS-36B-Instruct прошла дополнительное обучение следованию инструкциям для улучшенного выполнения направленных задач. Такая архитектурная дифференциация позволяет охватить широкий спектр применений от исследовательских экспериментов до производственных развертываний.

Контекстное окно 512 тысяч токенов превосходит большинство конкурирующих решений, включая GPT-4 с максимальным контекстом 128 тысяч токенов.

Юлия Самойлова
Юлия Самойлова

Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.