ByteDance выпустил модель Seed-OSS-36B с контекстом 512 тысяч токенов

Исследовательское подразделение Seed Team компании ByteDance выпустило семейство открытых больших языковых моделей Seed-OSS-36B с рекордным контекстным окном 512 тысяч токенов.  Архитектурная линейка включает три специализированных варианта с различными обучающими парадигмами.

Базовая модель Seed-OSS-36B-Base представлена в двух конфигурациях — с интеграцией синтетических данных и без них. Версия с синтетическими данными ориентирована на максимальную производительность в стандартизированных бенчмарках и коммерческом использовании.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Альтернативная несинтетическая конфигурация обеспечивает исследователям нейтральный фундамент для экспериментального дообучения без потенциальных искажений от искусственно генерированных данных.

Специализированная модель Seed-OSS-36B-Instruct прошла дополнительное обучение следованию инструкциям для улучшенного выполнения направленных задач. Такая архитектурная дифференциация позволяет охватить широкий спектр применений от исследовательских экспериментов до производственных развертываний.

Контекстное окно 512 тысяч токенов превосходит большинство конкурирующих решений, включая GPT-4 с максимальным контекстом 128 тысяч токенов.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.