悄然崛起的英伟达新对手

芯东西 | 2024-07-01 19:22:30 阅读：837

挑战英伟达。本文授权转载自公众号“半导体行业观察”，ID：icbank，作者：邵逸琦。

英伟达都有哪些对手？

首选当然是AMD和英特尔，前者本身就有AI加速卡的业务，集CPU和GPU设计能力与一身，而后者呢，作为x86架构的奠基人，如今也涉足AI加速卡领域，可以见到它们所推出的产品不仅在参数上对标英伟达，还在定位与售价等方面发动了一轮又一轮的攻势。

而英伟达的客户与博通和Marvell组成统一战线后，也成了它的对手，不断推陈出新的自研定制芯片，开始取代传统的通用AI加速卡，让英伟达感受到了另一种压力。

而在网络领域，英伟达也迎来了自己的对手。

01.英伟达独占AI网络

进入21世纪以来，随着云计算、大数据的日益普及，数据中心得到了快速发展。而InfiniBand在其中发挥了很大的作用，尤其是从2023年开始，以ChatGPT为代表的大型AI模型依赖于InfiniBand，让这一网络技术的关注度进一步提升。

众所周知，现代数字计算机自诞生以来就一直采用冯·诺依曼体系结构，该体系结构中有CPU（算术逻辑单元和控制单元）、内存（RAM、硬盘）和I/O（输入/输出）设备。20世纪90年代初，为了支持越来越多的外部设备，Intel率先在标准PC架构中引入了外围组件互连（PCI）总线设计。

随后，互联网进入快速发展阶段，在线业务和用户规模的不断增长对IT系统容量提出了巨大挑战。在摩尔定律的支持下，CPU、内存、硬盘等部件都在飞速进步，而PCI总线的更新换代速度却比较慢，大大限制了I/O性能，成为了整个系统的瓶颈。

为了解决这个问题，Intel、微软和SUN牵头制定了“下一代I/O（NGIO）”技术标准，而IBM、康柏和惠普则牵头制定了“未来I/O（FIO）”，并于1998年联合制定了PCI-X标准。

1999 年，FIO开发者论坛和 NGIO 论坛合并成立了InfiniBand贸易协会 (IBTA)。很快，在2000年，InfiniBand架构规范1.0版本正式发布。InfiniBand诞生的目的就是为了取代PCI总线，它引入了RDMA协议，提供更低的延迟、更高的带宽、更高的可靠性，从而实现更强大的I/O性能。

同样在1999年5月，几位从英特尔和伽利略科技公司出走的员工在以色列成立了一家叫Mellanox的芯片公司， Mellanox成立后加入了NGIO，后来NGIO与FIO 合并，Mellanox也加入了InfiniBand阵营，并于2001年推出了第一款InfiniBand产品。

而随着英特尔转向PCI Express（PCIe），以及微软退出InfiniBand，该网络技术开始转向计算机集群互联的应用领域，而新成立的Mellanox开始走上舞台，逐渐成为InfiniBand发展过程中的中坚力量。

InfiniBand虽然同时被英特尔和微软放弃，但它在新的领域中找到了增长点。2012年以后，随着高性能计算（HPC）需求的不断增长，InfiniBand技术不断取得长足进步，市场份额不断提升。2015年，InfiniBand技术在TOP500榜单中的份额首次突破50%，达到51.4%（257个系统）。这标志着InfiniBand技术首次成功挑战以太网技术，成为超级计算机首选的内部互连技术。

而Mellanox也在不断成长：2010年，Mellanox与Voltaire合并，Mellanox和QLogic成为InfiniBand的主要供应商；2013年，Mellanox进一步进军网络领域，收购硅光技术公司Kotura和并行光互连芯片制造商IPtronics，进一步巩固其行业地位；到2015年，Mellanox已占据全球InfiniBand市场80%的份额。业务范围从芯片扩展到网卡、交换机/网关、远程通信系统、线缆和模块，成为世界级网络供应商。

随着AI的持续发展，InfiniBand的价值也日益显现，Mellanox也因其在该技术上近乎垄断的地位而成为厂商眼里的香饽饽。

为什么InfiniBand对于AI如此重要？对于AI超级计算机来说，我们可以把它看作一个由许多图形处理单元（GPUs）组成的集群，这些单元进行大量复杂的计算。此外，还有一些中央处理单元（CPUs）负责指挥计算机的操作，再加上一些DRAM芯片和NAND芯片，成本大约分配为：50-60%用于GPUs，10-15%用于CPUs和DRAM芯片，5-10%用于NAND芯片。

但上述所有的芯片需要互相连接，这可以通过InfiniBand或以太网电缆来实现，也就是所谓的“网络”，它们占硬件成本的10-15%，而目的就是提供尽可能高的带宽，让数据能快速传输，倘若不能实现更高的带宽，那么无论在GPUs上花费多少成本，最后都会变得毫无意义。

英伟达作为AI领域最早的探索者之一，很敏锐地察觉到了这一点，同时决定将其关注点从游戏转向AI。2019 年，英伟达以69亿美元收购Mellanox，超过了竞争对手英特尔和微软的出价，后两者的出价分别为60亿美元和55亿美元，这笔数额庞大的收购，为英伟达进入网络技术市场铺平了道路。

当时英伟达的CEO黄仁勋解释称，收购Mellanox的原因是：“这是两家全球领先的高性能计算公司的合并，我们专注于加速计算，而Mellanox则专注于互连和存储。”

GPU和网络技术捆绑销售，听起来有点像强买强卖，但令许多人都未预料到的是，由黄仁勋所打造的这一模式迅速取得了成功。截至今年1月，英伟达的年收入翻了一番多，达到609亿美元，计算和网络部门的销售额增长了215%，占英伟达业务的78%。虽然英伟达的GPU部分引起了大量关注，但其网络业务也是成功的关键。在公司的最后一次财报电话会议上，黄仁勋表示，InfiniBand的收入同比增长了5倍，意味着其增长速度约为整个计算和网络业务的两倍。

英伟达将自身的GPU算力Mellanox的网络技术相结合，打造出了一个强大的“计算引擎”，在计算基础设施方面，英伟达无疑占据着领先优势。

02.英伟达的大威胁

过去，业界一直在使用英伟达配套的 InfiniBand 网络解决方案来部署人工智能和机器学习技术，原因很简单，它是目前最成熟的支持大规模部署的网络技术，但InfiniBand并非完美，一方面由于收购，它变成了英伟达的独家产品，另一方面，它的成本昂贵，绝非普通企业可以轻松承担得起的。

英伟达的CEO黄仁勋曾调侃道，InfiniBand只占集群成本的20%，而它能将人工智能训练的性能提高20%，某种程度上已经收回了成本，因而InfiniBand实际上是免费的。但这样的论断显然是有失偏颇的，客户必须首先拿出集群成本的20%，才能真正榨取出集群的性能，这就意味着用120%的成本创造120%的性能。

相对比之下，基于以太网的集群通常只需要额外的10%甚至更低的成本，尽管后者在性能上往往难以与InfiniBand匹敌，但它凭着自己的低廉价格也争取到了一部分用户。事实上，如今高性能网络的竞争，是InfiniBand与高速以太网的较量，资源充足的厂商会更倾向于选择InfiniBand，而注重性价比的厂商则可能倾向于高速以太网。

但这样的情况并非一成不变，即便是那些具备雄厚财力的大企业，也在寻找更廉价更合适的网络方案，英伟达与InfiniBand正在不断受到挑战。

2023年7月，Linux基金会宣布，将监督成立一个超级以太网联盟，该联盟的创始成员包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特尔、Meta 和微软的支持下，超以太网联盟表示将致力于改进以太网，以满足高性能计算和人工智能系统所需的低延迟和可扩展性要求。

该联盟创立的首要任务是定义和开发他们所称的超以太网传输（UET）协议，这是一种新的以太网传输层协议，能更好地满足人工智能和HPC工作负载的需求。

在高层次上，超以太网联盟希望以外科手术的方式完善以太网，只对实现目标所必需的部分进行改进和改动。从一开始，该联盟就着眼于改进以太网技术的软件层和物理层，但不改变其基本结构，以确保成本效益和互操作性。

联盟的技术目标包括开发规范、应用程序接口和源代码，以定义超以太网通信的协议、接口和数据结构。此外，联盟还致力于更新现有的链路和传输协议，创建新的遥测、信令、安全和拥塞机制，以更好地满足大型人工智能和高性能计算集群的需求。同时，由于人工智能和高性能计算工作负载有许多不同之处，UET 将为适当的部署提供单独的配置文件。

得益于这个超级以太网联盟，过去以太网运行人工智能工作负载的几个问题正在解决，也推动了以太网在传统HPC工作负载中的更广泛采用，这也让以太网网络公司找到了反攻InfiniBand的机会。

超级以太网联盟成员之一，以太网络公司Arista Networks在今年2月的财报电话会议中，其首席执行官Jayshree Ullal解释了InfiniBand和以太网之间的区别：“如你所知，从历史上看，当单独考虑InfiniBand和以太网时各有优势。传统上，InfiniBand被认为是无损的，而以太网被认为有一些损失特性。然而当你实际将一个完整的GPU集群连同光学设备等一同考虑，并查看所有数据包大小上的任务完成时间一致性时，数据——包括来自博通的第三方数据——显示在现实环境中比较这些技术，以太网的任务完成时间大约快10%。所以，你可以孤立地看待这些技术，也可以在实际集群中看待它们。而在实际集群中，我们已经看到以太网的改进。请记住，这只是我们今天所知的以太网。一旦我们有了超级以太网联盟和一些改进，比如数据包喷洒、动态负载平衡和拥塞控制，我相信这些数字会变得更好。”

“Arista声称其以太网在任务完成速度上比InfiniBand快约10%，这一点令我们感到意外，特别是考虑到InfiniBand在当前GPU集群中的深度渗透。”Jefferies分析师George Notter在会议后表示。

他指出，英伟达将GPUs与InfiniBand简单捆绑销售是该技术成功的关键原因，换句话说，InfiniBand受欢迎的部分原因是因为它与英伟达的GPU一起销售，但这现在GPU的积压订单减少了，使用InfiniBand的动机可能也会减少，这对Arista以及另一家以太网网络公司博通来说是个好消息。

“我们在四个主要的AI以太网集群中取得了进展，这些集群都是我们战胜InfiniBand的案例。在所有四个案例中，我们现在正从试验转向试点，每年连接数千个GPU，”Arista首席执行官Jayshree Ullal解释道。Arista在上季度业绩表现也非常不错，截至3月的三个月中，Arista的收入同比增长了16%，每股收益增长了44%，分析师预计随着AI基础设施支出的增加，这一增长将会加速。Arista约40%的业务来自微软和Meta，这两家公司都宣布明年将再次增加资本支出。Jefferies分析师George Notter最近还将Arista的评级从持有上调至买入，他表示：“现在，部署基于GPU的基础设施（包括以太网）的热潮将会持久。”

Arista并不是唯一一家受益于“部署热潮”的网络公司。博通截至2月4日的三个月收入同比增长了34%，达到120亿美元，其中网络收入增长了46%，达到33亿美元。“这主要是由于我们的两个超大规模客户对AI加速器的强劲需求，”博通首席执行官Hock Tan在财报电话会议上解释道。

对网络硬件的需求比博通预期的还要快，“超大规模客户以及部署AI数据中心的大型企业的强劲需求”推动了这一增长。因此，博通将其网络业务的全年增长预期从30%上调至35%。整体而言，博通今年的收入预计为500亿美元，比去年增长40%。

国外媒体The Next Platform提出了一个有趣的数学问题：Arista Networks在AI集群互连销售中每赚取7.5亿美元，英伟达可能会损失15亿至22.5亿美元。在过去的12个月中，粗略估计英伟达在 InfiniBand 网络方面的销售额为64.7亿美元，而数据中心的GPU计算销售额为397.8亿美元，在四比一的分红率和稳定的市场条件下，英伟达可以保留约13亿美元，而超级以太网联盟可以保留17亿至26亿美元，如果一切保持不变，InfiniBand的销售目标将达到120亿美元。

该媒体指出，超级以太网联盟的成员可以抢占的市场份额很大，但他们将通过从系统中移除收入来抢占，就像Linux对Unix所做的那样，而不是将收入从一种技术转换为另一种技术，其中节省下来的资金将重新投入到GPU中。

03.挑战英伟达

英伟达不止是在网络领域受到挑战，正如我们前文中提到的，它的最大依仗——GPU正在受到AMD、英特尔、博通等公司的围剿，尽管它坐拥3万亿美元市值，但依然会倍感压力。在网络市场，Arista现在无疑还是非常弱小的一家公司，相较于英伟达InfiniBand动辄数十亿美元的营收，短期内它还难以挑战，但巨头们对于AI集群网络垄断的不满，让Arista获得快速发展的宝贵机会，假以时日，它很有可能成为英伟达新的心腹大患。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。