Meta и Stanford представили Apollo — ИИ, который «понимает» видео

Meta AI* и Стэнфордский университет представили семейство крупных мультимодальных моделей Apollo. Они способны эффективно анализировать видеоконтент и это может быть прорывом в области искусственного интеллекта.

Особенно учитывая недавнее заявление сооснователя OpenAI Ильи Суцкевера о том, что предварительное обучение моделей достигло своего предела.

Главная особенность Apollo — умение работать эффективно даже при небольших размерах модели. Исследователи обнаружили так называемую «масштабируемую согласованность», которая позволяет добиваться впечатляющих результатов без использования гигантских датасетов и вычислительных мощностей.

Разработчики внедрили два ключевых улучшения: во-первых, инновационный метод выборки кадров (fps sampling), который анализирует видео с постоянной частотой, а во-вторых, уникальную комбинацию технологий SigLIP-SO400M (для четкого распознавания деталей изображения) и InternVideo2 (для анализа движения и временных последовательностей).

Результаты превзошли все ожидания: Apollo-3B, несмотря на свой сравнительно небольшой размер, показал результат 68.7 баллов в тесте MLVU, обогнав модели размером 7B.

А Apollo-7B установил новый рекорд в своей категории с показателем 70.9 баллов, превзойдя даже некоторые 30-гигабайтные модели.

Команда также представила инструмент оценки ApolloBench, который работает в 41 раз быстрее существующих аналогов.

«Наши результаты доказывают, что продуманная архитектура и методы обучения могут обеспечить превосходную производительность без необходимости наращивать размеры моделей», — отмечают исследователи.

*признана экстремистской и запрещена в РФ

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.