Meta и Stanford представили Apollo — ИИ, который "понимает" видео

Meta AI* и Стэнфордский университет представили семейство крупных мультимодальных моделей Apollo. Они способны эффективно анализировать видеоконтент и это может быть прорывом в области искусственного интеллекта.

Особенно учитывая недавнее заявление сооснователя OpenAI Ильи Суцкевера о том, что предварительное обучение моделей достигло своего предела.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Главная особенность Apollo — умение работать эффективно даже при небольших размерах модели. Исследователи обнаружили так называемую «масштабируемую согласованность», которая позволяет добиваться впечатляющих результатов без использования гигантских датасетов и вычислительных мощностей.

Разработчики внедрили два ключевых улучшения: во-первых, инновационный метод выборки кадров (fps sampling), который анализирует видео с постоянной частотой, а во-вторых, уникальную комбинацию технологий SigLIP-SO400M (для четкого распознавания деталей изображения) и InternVideo2 (для анализа движения и временных последовательностей).

Результаты превзошли все ожидания: Apollo-3B, несмотря на свой сравнительно небольшой размер, показал результат 68.7 баллов в тесте MLVU, обогнав модели размером 7B.

А Apollo-7B установил новый рекорд в своей категории с показателем 70.9 баллов, превзойдя даже некоторые 30-гигабайтные модели.

Команда также представила инструмент оценки ApolloBench, который работает в 41 раз быстрее существующих аналогов.

«Наши результаты доказывают, что продуманная архитектура и методы обучения могут обеспечить превосходную производительность без необходимости наращивать размеры моделей», — отмечают исследователи.

*признана экстремистской и запрещена в РФ

MLTimes

медиа про ИИ, что происходит в мире ИИ. СМИ про ИИ.

Meta и Stanford представили Apollo — ИИ, который «понимает» видео