"); //-->
▲微软现场展示AI端到端机架
两款芯片明年年初开始在微软数据中心推出,最初为微软的Copilot或Azure OpenAI Service等服务提供动力。微软已经在设计第二代版本的Azure Maia AI芯片和Cobalt CPU系列。这些芯片代表了微软交付基础设施系统的最后一块拼图——从芯片、软件和服务器到机架和冷却系统的一切,微软这些系统都是由上到下设计的,可以根据内部和客户的工作负载进行优化。值得一提的是,生成式AI超级独角兽OpenAI率先试用了Maia 100芯片。该芯片正在GPT-3.5 Turbo上进行测试。OpenAI首席执行官Sam Altman说:“当微软第一次分享他们的Maia芯片设计时,我们很兴奋,我们一起努力改进并在我们的模型上测试它。Azure的端到端AI架构现在与Maia一起优化到芯片,为训练更有能力的模型铺平了道路,并使这些模型对我们的客户来说更便宜。”除了发布自研芯片外,微软宣布将扩大与英伟达、AMD两家芯片巨头在AI加速计算方面的合作伙伴关系,为客户提供更多价格和性能的选择。微软发布了针对英伟达H100 GPU的全新NC H100 v5虚拟机系列预览,还将在明年增加最新的英伟达H200 GPU,以支持更大的模型推理;并宣布将在Azure中加入AMD MI300X加速虚拟机,旨在加速AI工作负载处理,用于AI模型训练和生成式推理。英伟达创始人兼CEO黄仁勋专程来到现场,宣布推出一项AI代工服务,可以帮助部署在微软Azure上的企业和初创公司,构建自己的定制大语言模型。▲纳德拉与黄仁勋握手
当微软CEO纳德拉提问未来AI创新的发展方向是什么,黄仁勋回答说:“生成式AI是计算史上最重要的平台转型。在过去40年里,从来没有发生过如此大的事情。到目前为止,它比个人电脑更大、比手机更大,而且将比互联网更大。”▲在微软雷德蒙德实验室里,一位系统级测试人员正在模拟芯片在微软数据中心内的运行情况。这台机器在真实世界的条件下严格评估每个芯片,以确保它符合性能和可靠性标准。(图源:微软)
微软认为增加自研芯片是一种确保每个元素都适合微软云和AI工作负载的方式。这些芯片将安装在定制的服务器主板上、放在定制的机架上,随着机架被安装到现有的微软数据中心中。AI芯片微软Azure Maia 100旨在实现硬件的绝对最大利用率,将为运行在微软Azure上的一些最大的内部AI工作负载提供动力。领导Azure Maia团队的微软技术人员Brian Harry说,Maia 100专门为Azure硬件堆栈而设计,这种垂直整合——将芯片设计与考虑到微软工作负载而设计的更大AI基础设施相结合——可以在性能和效率方面产生巨大的收益。Cobalt 100 CPU是一款128核服务器处理器,采用Arm Neoverse CSS设计构建。据微软硬件产品开发副总裁Wes McCulloug分享,这是一种经过优化的低功耗芯片设计,可以在云原生产品中提供更高的效率和性能。选用Arm技术是微软可持续发展目标的一个关键因素,其目标是优化整个数据中心的“每瓦性能”,这本质上意味着为每单位消耗的能量获得更多的计算能力。“初步测试表明,我们的性能比现有商用Arm服务器的数据中心性能提高40%。”微软Azure硬件系统和基础设施副总裁Rani Borkar说。▲首批由微软Azure Cobalt 100 CPU驱动的服务器,位于华盛顿州昆西的一个数据中心内。(图源:微软)
“我们正在最有效地利用硅上的晶体管。将我们所有数据中心的服务器的效率提升相乘,这是一个相当大的数字。”McCulloug谈道。▲在微软雷德蒙德实验室里,芯片正在进行系统级测试,在安装到服务器上之前,模拟它们在实际生产条件下的使用情况。(图源:微软)
今天公布的芯片架构不仅可以提高冷却效率,还能优化其当前数据中心资产的使用,并在现有范围内最大限度地提高服务器容量。例如,不存在机架来容纳Maia 100服务器主板的独特需求,所以微软从零做出更宽的数据中心机架。这种扩展的设计为电源和网络电缆提供了充足的空间,能满足AI工作负载的独特需求。▲在微软雷德蒙德实验室的一个热室里,为Maia 100 AI芯片和它的“伙伴”定制的机架。在处理AI工作负载的计算需求时,新“助手”在机架之间循环液体来冷却芯片。(图源:微软)
大型AI任务需要大量的计算、消耗更多的电力。传统空气冷却方法无法满足这些需求,液冷已成为应对这些热挑战的首选方案。但微软目前的数据中心并不是为大型液冷机器设计的。因此它开发了一个“助手”,放在Maia 100机架旁边。这些“助手”的工作原理有点像汽车的散热器。冷液从侧板流向附着在Maia 100芯片表面的冷板。每个板都有通道,液体通过这些通道循环以吸收和输送热量。这些热量会流到副翼,副翼会从液体中去除热量,并将其送回机架以吸收更多的热量,以此类推。▲冷板附着在Maia 100 AI芯片的表面。(图源:微软)
McCullough强调说,机架和“助手”的串联设计强调了基础设施系统方法的价值。通过控制每一个方面——从Cobalt 100芯片的低功耗理念到数据中心冷却的复杂性——微软可以协调每个组件之间的和谐相互作用,确保在减少环境影响方面,整体确实大于各部分的总和。微软已经与行业合作伙伴分享了其定制机架的设计经验,无论内部安装的是什么芯片,微软都可以使用这些经验。“我们建造的所有东西,无论是基础设施、软件还是固件,我们都可以利用我们自己的芯片,或是我们行业合作伙伴的芯片。”McCullough分享道,“这是客户做出的选择,我们正努力为他们提供最好的选择,无论是性能、成本还是他们关心的任何其他方面。”Stemen说,微软的使命很明确:优化其技术堆栈的每一层,从核心芯片到终端服务。“微软的创新将进一步深入到芯片工作中,以确保我们客户在Azure上的工作负载的未来,优先考虑性能、能效和成本。”他谈道,“我们有意选择这项创新,以便我们的客户能够在今天和未来获得Azure的最佳体验。”大会期间,微软还宣布了其中一个关键要素的全面可用性——Azure Boost,这是一个将存储和网络进程从主机服务器转移到专用硬件和软件上的系统,有助于加快存储和网络的速度。*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。