Исследовательская лаборатория Yandex Research представила инновационную нейросетевую архитектуру TabM (Tabular DL model that makes Multiple predictions), специализированную для эффективной обработки и анализа табличных данных.
Ключевая особенность TabM заключается в реализации усовершенствованного ансамблевого подхода, при котором несколько моделей одновременно анализируют данные, после чего их прогнозы агрегируются для получения финального результата. Масштабное тестирование архитектуры на 46 разнородных наборах данных продемонстрировало значительное превосходство TabM над существующими решениями.
Средний ранг новой архитектуры составил 1,7 против 2,9 у ближайшего конкурентного аналога. Особенно важным аспектом является стабильность результатов – критический параметр для внедрения технологии в промышленные системы принятия решений.
Технологический прорыв приобретает особую значимость в контексте многолетнего доминирования алгоритмов градиентного бустинга (CatBoost, XGBoost, LightGBM) в области анализа табличных данных.
Нейросетевые подходы традиционно уступали этим методам в точности и вычислительной эффективности, однако TabM успешно преодолевает данное ограничение, что может существенно изменить ландшафт технологий машинного обучения.
Международная валидация разработки проводилась на платформе Kaggle – глобальной экосистеме соревнований по анализу данных и машинному обучению, поддерживаемой Google. В частности, архитектура была применена для решения сложной биомедицинской задачи прогнозирования выживаемости пациентов после трансплантации костного мозга.
Практический потенциал TabM охватывает множество критически важных направлений: оптимизацию логистических цепочек поставок, прогнозирование энергопотребления, финансовый анализ и стратификацию пациентов по группам риска заболеваний.
Особую ценность представляет способность архитектуры эффективно обрабатывать масштабные гетерогенные наборы данных.