ML-платформа Авито оптимизирует до 95% рутинных задач

Компания Авито представила детальный обзор своей технологической инфраструктуры на фестивале Data Fest и ключевым технологическим преимуществом компании является разработка специализированного токенизатора, оптимизированного для обработки русскоязычных текстов.

Техническая оптимизация обеспечивает снижение количества используемых токенов в среднем на 29% по сравнению со стандартными решениями, что напрямую влияет на производительность языковой модели и позволяет достичь двукратного увеличения скорости обработки информации по сравнению с моделью Qwen.

Практическим подтверждением эффективности реализованного подхода стало первое место модели A-Vibe в категории компактных языковых моделей в рамках бенчмарка MERA на Data Fest.

Визуальная модель Авито демонстрирует сопоставимый уровень технологического развития с языковыми решениями компании. Функциональные возможности системы включают генерацию текстовых описаний изображений, распознавание текстовой информации в визуальном контенте, количественный анализ объектов на фотографиях и идентификацию брендов.

Оптимизированный токенизатор обеспечивает ускоренное выполнение всех перечисленных операций, что повышает общую производительность системы.

В сфере автоматизации рутинных операций Авито создал комплексную ML-платформу, обеспечивающую оптимизацию 80-95% типовых задач.

Архитектура платформы включает централизованное хранилище признаков, систему разметки данных с механизмом взаимного контроля качества между операторами и алгоритмами искусственного интеллекта, а также интегрированное open-source решение Aqueduct для оптимизации инференса, обеспечивающее экономию до 30% вычислительных ресурсов.

Автор: Анна Маркова
Специализируется на технологической журналистике с фокусом на искусственный интеллект. Пишет о реальном применении ИИ в бизнесе и повседневной жизни.