AWS объявила о запуске одного из самых мощных в мире ИИ-кластеров под названием Project Rainier. Этот распределенный между несколькими дата-центрами суперкомпьютер создан специально для компании Anthropic, разработчика модели Claude. Проект стал важным этапом в развитии ИИ-инфраструктуры Amazon.
В состав Project Rainier входит около 500 тысяч специализированных ИИ-ускорителей Trainium2. Вычислительная мощность кластера в пять раз превышает ресурсы, которые Anthropic использовала для обучения предыдущих версий своих моделей. Планируется расширение до более чем миллиона чипов Trainium2 для задач обучения и инференса.
Узнать подробнее про клуб ShareAI
Созданная инфраструктура на 70% превосходит любую другую вычислительную ИИ-платформу в истории AWS. Проект охватывает несколько дата-центров на территории США и построен по архитектуре EC2 UltraCluster из серверов Trainium2 UltraServer.
Каждый UltraServer объединяет четыре физических сервера с 16 чипами Trainium2 в каждом. Для взаимодействия между ними используется фирменный интерконнект NeuronLink, обеспечивающий высокоскоростную связь внутри системы. Десятки тысяч таких серверов объединяются в UltraCluster через сетевую фабрику EFA.
Особое внимание в проекте уделяется энергоэффективности и экологичности. AWS разрабатывает собственное оборудование и контролирует все компоненты от чипов до систем охлаждения. В 2023 году вся энергия, потребляемая Amazon, была полностью компенсирована электричеством из возобновляемых источников.
Новые дата-центры Project Rainier используют инновационные технологии охлаждения. Например, объект в Индиане максимально использует охлаждение наружным воздухом. С октября по март вода для охлаждения не применяется вообще, а с апреля по сентябрь используется лишь несколько часов в день.
Показатель эффективности использования воды (WUE) в дата-центрах AWS составляет 0,15 л/кВт·ч, что значительно ниже стандартного отраслевого показателя 0,375 л/кВт·ч и на 40% лучше собственного результата компании.
Интересно, что запуск Project Rainier произошел практически одновременно с подписанием Anthropic многомиллиардного контракта на использование процессоров Google TPU, что демонстрирует стремление компании диверсифицировать свою вычислительную инфраструктуру.
 
                     
                            
                         
        
