В мире робототехники произошел прорыв. Компании Hugging Face и Physical Intelligence запустили первую в истории открытую базовую модель для роботов – Pi-Zero (Pi0). Этот ИИ способен преобразовывать команды на естественном языке непосредственно в физические действия, делая управление роботами таким же простым, как разговор с ChatGPT.
О запуске Pi0 сообщил ведущий научный сотрудник Hugging Face Реми Каден, по его словам, это «самая передовая модель, объединяющая зрение, язык и действия», способная самостоятельно выполнять задачи без сложного программирования. Pi0 был создан Physical Intelligence и теперь интегрирован в платформу LeRobot от Hugging Face. Модель уже продемонстрировала способность выполнять сложные задачи: складывать белье, убирать столы и упаковывать продукты.
Это стало возможным благодаря обучению на данных семи различных роботизированных платформ и 68 уникальных задач. Особая технология flow matching позволяет Pi0 генерировать плавные движения в реальном времени с частотой 50 Гц, обеспечивая высокую точность и адаптивность.
Но на этом разработчики не остановились. Представлена улучшенная версия – Pi0-FAST, использующая новый метод токенизации действий в частотном пространстве (FAST). Это позволило увеличить скорость обучения модели в 5 раз и значительно улучшить её универсальность для разных типов роботов и сред.
Этот прорыв открывает новые горизонты для промышленности. Заводы теперь смогут перенастраивать роботов для новых задач с помощью голосовых команд вместо сложного программирования. Логистические компании смогут применять гибкие автоматизированные системы, а малый бизнес получит доступ к передовым технологиям без необходимости в команде программистов.
Однако у Pi0 пока есть ограничения. Модель испытывает трудности с особенно сложными задачами и требует значительных вычислительных ресурсов. Также остаются вопросы надежности и безопасности в промышленных условиях.
Выход Pi0 знаменует собой важный шаг в гонке за создание искусственного общего интеллекта (AGI). Впервые базовая ИИ-модель соединяет языковые возможности с физическими действиями, открывая новые перспективы в автоматизации и взаимодействии роботов с окружающим миром.