AWS развернула гигантский ИИ-кластер для обучения моделей Anthropic

AWS объявила о запуске одного из самых мощных в мире ИИ-кластеров под названием Project Rainier. Этот распределенный между несколькими дата-центрами суперкомпьютер создан специально для компании Anthropic, разработчика модели Claude. Проект стал важным этапом в развитии ИИ-инфраструктуры Amazon.

В состав Project Rainier входит около 500 тысяч специализированных ИИ-ускорителей Trainium2. Вычислительная мощность кластера в пять раз превышает ресурсы, которые Anthropic использовала для обучения предыдущих версий своих моделей. Планируется расширение до более чем миллиона чипов Trainium2 для задач обучения и инференса.

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Созданная инфраструктура на 70% превосходит любую другую вычислительную ИИ-платформу в истории AWS. Проект охватывает несколько дата-центров на территории США и построен по архитектуре EC2 UltraCluster из серверов Trainium2 UltraServer.

Каждый UltraServer объединяет четыре физических сервера с 16 чипами Trainium2 в каждом. Для взаимодействия между ними используется фирменный интерконнект NeuronLink, обеспечивающий высокоскоростную связь внутри системы. Десятки тысяч таких серверов объединяются в UltraCluster через сетевую фабрику EFA.

Особое внимание в проекте уделяется энергоэффективности и экологичности. AWS разрабатывает собственное оборудование и контролирует все компоненты от чипов до систем охлаждения. В 2023 году вся энергия, потребляемая Amazon, была полностью компенсирована электричеством из возобновляемых источников.

Новые дата-центры Project Rainier используют инновационные технологии охлаждения. Например, объект в Индиане максимально использует охлаждение наружным воздухом. С октября по март вода для охлаждения не применяется вообще, а с апреля по сентябрь используется лишь несколько часов в день.

Показатель эффективности использования воды (WUE) в дата-центрах AWS составляет 0,15 л/кВт·ч, что значительно ниже стандартного отраслевого показателя 0,375 л/кВт·ч и на 40% лучше собственного результата компании.

Интересно, что запуск Project Rainier произошел практически одновременно с подписанием Anthropic многомиллиардного контракта на использование процессоров Google TPU, что демонстрирует стремление компании диверсифицировать свою вычислительную инфраструктуру.

Автор: Юлия Самойлова
Пишет о технологиях искусственного интеллекта с 2019 года. Специализируется на материалах о практическом применении ИИ в различных отраслях.