Исследовательское подразделение Seed Team компании ByteDance выпустило семейство открытых больших языковых моделей Seed-OSS-36B с рекордным контекстным окном 512 тысяч токенов. Архитектурная линейка включает три специализированных варианта с различными обучающими парадигмами.
Базовая модель Seed-OSS-36B-Base представлена в двух конфигурациях — с интеграцией синтетических данных и без них. Версия с синтетическими данными ориентирована на максимальную производительность в стандартизированных бенчмарках и коммерческом использовании.
Узнать подробнее про клуб ShareAI
Альтернативная несинтетическая конфигурация обеспечивает исследователям нейтральный фундамент для экспериментального дообучения без потенциальных искажений от искусственно генерированных данных.
Специализированная модель Seed-OSS-36B-Instruct прошла дополнительное обучение следованию инструкциям для улучшенного выполнения направленных задач. Такая архитектурная дифференциация позволяет охватить широкий спектр применений от исследовательских экспериментов до производственных развертываний.
Контекстное окно 512 тысяч токенов превосходит большинство конкурирующих решений, включая GPT-4 с максимальным контекстом 128 тысяч токенов.