Компания Apple опубликовала три исследовательские работы в области применения искусственного интеллекта для программирования. Ученые предложили новые подходы для поиска ошибок в коде, тестирования программных решений и обучения моделей, способных создавать работающий код.
Первое исследование посвящено модели под названием ADE-QVAET. Она решает проблемы, с которыми сталкиваются современные ИИ-модели: галлюцинации, потерю контекста при анализе больших объемов кода и утрату связи с бизнес-логикой программы. Система объединяет четыре метода: адаптивную дифференциальную эволюцию, квантовый вариационный автокодировщик, архитектуру трансформера и адаптивное шумоподавление.
Узнать подробнее про клуб ShareAI
В отличие от обычных языковых моделей, ADE-QVAET не анализирует код напрямую. Она оценивает его сложность, размер и структуру, ища закономерности, которые могут указывать на вероятные ошибки. Тесты показали точность прогнозов от 95% до 98%, что говорит о высокой надежности модели и минимальном количестве ложных срабатываний.
Второе исследование посвящено планированию и созданию инструментов для тестирования крупных программных проектов. Ученые разработали систему Agentic RAG, которая самостоятельно планирует, пишет и организует тестирование ПО. По словам авторов, эти задачи обычно занимают у инженеров по качеству от 30% до 40% рабочего времени.
Подключение нескольких ИИ-агентов к модели с RAG повысило точность тестирования с 65% до 94,8%. Время тестирования сократилось на 85%, точность средств проверки выросла также на 85%, а прогнозируемая экономия составила 35%. Система позволила сократить сроки ввода программ в эксплуатацию на два месяца. Единственное ограничение: ее тестировали только на корпоративных кадровых и бухгалтерских системах, а также решениях SAP.
Третий проект получил название SWE-Gym. Это механизм обучения ИИ-агентов на основе чтения, редактирования и проверки реального программного кода. Платформа построена на 2438 задачах на языке Python из 11 открытых репозиториев. Благодаря исполняемой среде и набору тестов агенты могли практиковаться в написании и отладке кода в реалистичных условиях.
Авторы также создали упрощенную версию — SWE-Gym Lite на базе 230 более простых задач. Она помогает ускорить обучение и снизить затраты на вычисления.
Агенты, обученные с помощью SWE-Gym, правильно решили 72,5% предложенных задач, что на 20 процентных пунктов выше по сравнению с предыдущими методами. На платформе SWE-Gym Lite время обучения сокращается вдвое, но такие агенты подходят только для более простых задач.