Meta AI* и Стэнфордский университет представили семейство крупных мультимодальных моделей Apollo. Они способны эффективно анализировать видеоконтент и это может быть прорывом в области искусственного интеллекта.
Особенно учитывая недавнее заявление сооснователя OpenAI Ильи Суцкевера о том, что предварительное обучение моделей достигло своего предела.
Главная особенность Apollo — умение работать эффективно даже при небольших размерах модели. Исследователи обнаружили так называемую «масштабируемую согласованность», которая позволяет добиваться впечатляющих результатов без использования гигантских датасетов и вычислительных мощностей.
Разработчики внедрили два ключевых улучшения: во-первых, инновационный метод выборки кадров (fps sampling), который анализирует видео с постоянной частотой, а во-вторых, уникальную комбинацию технологий SigLIP-SO400M (для четкого распознавания деталей изображения) и InternVideo2 (для анализа движения и временных последовательностей).
Результаты превзошли все ожидания: Apollo-3B, несмотря на свой сравнительно небольшой размер, показал результат 68.7 баллов в тесте MLVU, обогнав модели размером 7B.
А Apollo-7B установил новый рекорд в своей категории с показателем 70.9 баллов, превзойдя даже некоторые 30-гигабайтные модели.
Команда также представила инструмент оценки ApolloBench, который работает в 41 раз быстрее существующих аналогов.
«Наши результаты доказывают, что продуманная архитектура и методы обучения могут обеспечить превосходную производительность без необходимости наращивать размеры моделей», — отмечают исследователи.
*признана экстремистской и запрещена в РФ