Китайский техногигант Meituan представил ИИ для разговоров с видео и аудио

Компания Meituan представила инновационную открытую модель искусственного интеллекта LongCat-Flash-Omni, способную вести диалог в реальном времени с полноценным восприятием видео и аудио. Это мультимодальная система нового поколения, которая не просто распознает команды, но поддерживает естественный разговор с реакцией на изменения в интонации и выражении лица собеседника.

Архитектура модели включает 560 миллиардов параметров, из которых активно используется только 27 миллиардов. Такой подход, основанный на технологии Mixture of Experts, позволяет достигать высокого качества работы при оптимальных вычислительных затратах.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Одно из ключевых преимуществ LongCat-Flash-Omni — контекстное окно размером до 128 тысяч токенов. Это обеспечивает возможность вести продолжительные беседы, анализировать большие объемы данных и сохранять осмысленность ответов на протяжении всего диалога.

При тестировании на популярных бенчмарках модель показала впечатляющие результаты. Она заняла лидирующие позиции в рейтингах OmniBench и DailyOmni, а также продемонстрировала высокую эффективность в задачах автоматического распознавания речи (ASR), ответов на вопросы по документам (DocVQA) и ссылочного понимания изображений (RefCOCO).

По совокупности показателей LongCat-Flash-Omni превосходит Qwen3-Omni Instruct и приближается к уровню производительности Gemini 2.5 Flash от Google, что делает её одной из самых мощных мультимодальных систем искусственного интеллекта на сегодняшний день.

Особенностью проекта, выделяющей его на фоне аналогов, является его полная открытость. В отличие от большинства коммерческих решений, LongCat-Flash-Omni доступна для локального запуска, что позволяет исследователям и разработчикам изучать, модифицировать и адаптировать модель под собственные нужды.

Эксперты отмечают, что выпуск подобных открытых моделей способствует демократизации технологий искусственного интеллекта и снижает барьеры для входа в отрасль. Это особенно важно в контексте растущей конкуренции между технологическими гигантами в сфере разработки все более продвинутых ИИ-систем.

Meituan, известная в первую очередь как ведущая китайская платформа доставки еды и локальных услуг, этим проектом демонстрирует свои амбиции в области передовых технологий искусственного интеллекта. Компания активно инвестирует в исследования и разработки, стремясь укрепить свои позиции не только в Китае, но и на глобальном технологическом рынке.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.