«Авито» запустила в открытый доступ два искусственных интеллекта для электронной коммерции. Компания представила текстовую модель A-Vibe и мультимодальную A-Vision, работающую с текстом и картинками.
В отличие от существующих продуктов, эти разработки специально настроены на русский язык и особенности местной онлайн-торговли. Их создали на базе китайских технологий Qwen от Alibaba. Каждая модель содержит 8 млрд параметров.
Узнать подробнее про клуб ShareAI
Разработка обошлась в 500 млн рублей. Деньги пошли на инфраструктуру, оплату команды и проведение экспериментов. Сейчас «Авито» уже использует эти технологии внутри компании.
Главная особенность новых моделей — они обучались на данных из сферы онлайн-торговли. Это помогает им лучше справляться с типичными задачами: анализом документов, созданием описаний товаров и выделением их характеристик.
Обе модели могут работать с текстами объемом до 100 страниц и подключаться к другим программам через API. Это позволяет создавать автоматические системы, которые самостоятельно отвечают на вопросы и выполняют действия с данными.
Доступ к разработкам открыт на платформе Hugging Face. Там же опубликованы инструкции по настройке и примеры использования. Компании могут устанавливать эти модели на своих серверах без привязки к облачным сервисам.
По словам экспертов, до сих пор в России не было открытых ИИ-моделей для электронной коммерции. Управляющий партнер Sk Capital Станислав Колесниченко считает, что этот шаг снизит барьеры для небольших компаний и стартапов, которым раньше приходилось тратить ресурсы на адаптацию западных или азиатских решений.
Гендиректор Dbrain Алексей Хахунов отмечает важность локальных моделей для российских компаний с жестким регулированием данных, таких как банки и медицинские организации. Им нельзя отправлять информацию во внешние облачные сервисы, а крупные российские разработчики — «Яндекс» и «Сбер» — предлагают модели только через свои облака.
Эксперты считают, что новые модели лучше всего подходят для практических задач: создания описаний товаров, визуального поиска, модерации контента, борьбы с мошенничеством и автоматизации рутинных процессов. При этом они пока не способны решать сложные аналитические задачи, требующие глубокого понимания контекста.

