在10月15日至17日举办的开放计算全球峰会(OCP Global Summit)上,阿里云磐久AI Infra 2.0服务器与UALink联盟共同呈现了他们在AI基础设施领域的最新合作成果。本届峰会以“创新驱动未来”为主题,吸引了全球超过7000名基础设施软硬件技术和应用领域的专家。在OCP基金会宣布人工智能开放系统战略计划的背景下,峰会特别关注了AI基础设施技术生态的建设。
遵循ALink System规范,阿里云设计了面向下一代超大规模AI集群的磐久AI Infra 2.0服务器,体现了开放生态、高能效、高性能和高可用的设计理念。AI Infra 2.0服务器定义了AI计算节点和Scale Up/Scale Out互连系统,支持业界主流AI方案,推动了AI领域的“一云多芯”发展。
AI Infra 2.0服务器集成了阿里自研的CIPU 3.0芯片,支持高带宽大规模AI服务器的Scale Out网络扩展,同时满足云网络的弹性和安全需求。
在硬件工程方面,AI Infra 2.0服务器单机柜支持最大80个AI计算节点,密度业界领先;采用400V PSU,单体供电效率可达98%,整体供电效率提高2%。散热设计上,机柜级液冷方案根据负载动态调整CDU冷却能力,降低能耗,单柜冷却系统节能30%。运维管理上,全新的CableCartridge后维护设计支持全盲插,零理线易运维、零误操作,维护效率提升50%。
在可靠性方面,AI Infra 2.0服务器支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,能够实时监控和自愈各种硬件故障,将硬件故障域缩减到节点级。