华为发布Atlas 900 SuperCluster,开创大模型训练新纪元
9月23日消息,华为在今日的全联接大会2023期间发布了一项重大突破,正式推出了Atlas 900 SuperCluster,这是一款全新架构的昇腾AI计算集群,专门设计用于支持超大规模模型训练,参数容量高达万亿级别。 华为企业BG总裁兼ICT基础设施业务管理委员会主任汪涛在发布会上介绍了这一创新产品,他表示,Atlas 900 SuperCluster采用了最新一代的华为星河AI智算交换机CloudEngine XH16800,该交换机具备高密度的800GE端口能力,使得只需要两层交换网络即可构建一个拥有2250个节点的超大规模集群,相当于18000张计算卡的规模。
更为引人注目的是,这款集群采用了全新的超节点架构,极大提升了大模型训练的性能。汪涛强调,大算力已经成为推动人工智能发展的核心引擎。为了满足日益增长的计算需求,华为进行了系统架构创新,将算力、运力、存力融为一体,成功突破了大算力瓶颈。
据本站了解,为了进一步加速大模型创新,华为还发布了CANN7.0,这是一个更加开放、易于使用的平台。它不仅与业界主流的AI框架、加速库和大模型兼容,还深度开放底层能力,使得AI框架和加速库可以更加灵活地调用和管理计算资源,为开发者提供了更多的自定义高性能算子的可能性。
华为在计算、网络、存储、能源等领域的综合优势,使得这一新集群在器件级、节点级、集群级和业务级全面提升了系统的可靠性,将大模型训练的稳定性从天级提升到了月级水平。这个突破性的产品将为人工智能领域的发展提供更强大的支持,推动大模型时代的到来。 |