Два новаторских ученых-информатика получили премию Тьюринга 2024 года, называемую еще «Нобелевской премией информатики». За свою работу в области обучения с подкреплением. Дисциплины, в которой машины учатся через подход проб и ошибок, основанный на вознаграждении, что позволяет им адаптироваться в ограниченных или динамических средах.
Эндрю Г. Барто, почетный профессор Массачусетского университета в Амхерсте, и Ричард С. Саттон, профессор Университета Альберты, разработали ключевые алгоритмы и теории в серии основополагающих статей, начиная с 1980-х годов. Эта работа включает исследование техники обучения с подкреплением, называемой обучением с временными различиями. Позже дуэт опубликовал академический учебник «Обучение с подкреплением: введение».
Выдающийся математик Алан Тьюринг, в честь которого названа премия Тьюринга, также опубликовал в 1950-х годах статью под названием «Вычислительные машины и интеллект», в которой поднимался вопрос о том, могут ли компьютеры мыслить, и затрагивались аналогичные концепции обучения на основе опыта.
В последние годы обучение с подкреплением привлекло больше внимания после того, как Google Deepmind использовал эту технику для создания ИИ, победившего лучших в мире игроков в AlphaGo. А в последние месяцы китайский ИИ-стартап DeepSeek попал в заголовки новостей благодаря своей революционной модели рассуждений R1, которая активно использовала обучение с подкреплением для создания более экономичных фундаментальных моделей.
Премия Тьюринга, присуждаемая Ассоциацией вычислительной техники (ACM), часто называется «Нобелевской премией в области вычислений». Однако сама Нобелевская премия в последнее время вторгается в сферу вычислений, особенно в области ИИ: Джефф Хинтон и Джон Хопфилд получили Нобелевскую премию по физике за работу в области фундаментального ИИ в прошлом году. Вскоре после этого Демис Хассабис и Джон Джампер из DeepMind были удостоены Нобелевской премии по химии за работу над AlphaFold.
«Различные исследовательские области, от когнитивной науки и психологии до нейронауки, вдохновили развитие обучения с подкреплением, которое заложило основы для некоторых из наиболее важных достижений в области ИИ и дало нам более глубокое понимание работы мозга», — заявил президент ACM Яннис Иоаннидис.