Компания Авито представила детальный обзор своей технологической инфраструктуры на фестивале Data Fest и ключевым технологическим преимуществом компании является разработка специализированного токенизатора, оптимизированного для обработки русскоязычных текстов.
Техническая оптимизация обеспечивает снижение количества используемых токенов в среднем на 29% по сравнению со стандартными решениями, что напрямую влияет на производительность языковой модели и позволяет достичь двукратного увеличения скорости обработки информации по сравнению с моделью Qwen.
Практическим подтверждением эффективности реализованного подхода стало первое место модели A-Vibe в категории компактных языковых моделей в рамках бенчмарка MERA на Data Fest.
Визуальная модель Авито демонстрирует сопоставимый уровень технологического развития с языковыми решениями компании. Функциональные возможности системы включают генерацию текстовых описаний изображений, распознавание текстовой информации в визуальном контенте, количественный анализ объектов на фотографиях и идентификацию брендов.
Оптимизированный токенизатор обеспечивает ускоренное выполнение всех перечисленных операций, что повышает общую производительность системы.
В сфере автоматизации рутинных операций Авито создал комплексную ML-платформу, обеспечивающую оптимизацию 80-95% типовых задач.
Архитектура платформы включает централизованное хранилище признаков, систему разметки данных с механизмом взаимного контроля качества между операторами и алгоритмами искусственного интеллекта, а также интегрированное open-source решение Aqueduct для оптимизации инференса, обеспечивающее экономию до 30% вычислительных ресурсов.