Исследователи разработали революционную универсальную систему 3D-зрения для роботов. Которая способна эффективно распознавать объекты в любых условиях. Это первая в мире система, одинаково хорошо работающая с разными наборами данных.
Ключевое преимущество новой разработки — универсальность.
«Раньше приходилось создавать отдельные модели с уникальными настройками для каждой задачи. Это существенно замедляло разработку и ограничивало применение моделей», — поясняют в Институте искусственного интеллекта AIRI. Новая архитектура, основанная на чистом трансформере-кодировщике, решает эту проблему.
Руководитель научной группы «Пространственный интеллект» Антон Конушин отмечает главную сложность в этой области: крайне ограниченные наборы данных для обучения.
«Самый большой набор содержит около 7 тысяч сцен. Это очень мало по сравнению с миллиардами изображений, используемых в генеративных моделях», — подчеркивает учёный.
Команда решила проблему, создав модель ИИ, способную эффективно работать с разнородными данными. Исследователи разработали универсальную архитектуру нейросети и провели масштабную переразметку данных, сократив число уникальных классов объектов.
Эксперименты подтвердили успех: новая модель может постепенно обучаться работе с различными наборами данных и одинаково эффективно распознавать объекты в разных типах «облаков точек». Разработка найдет применение в робототехнике, дополненной реальности и 3D-сканировании.