"); //-->
▲GPT-3、Gopher、MT-NLG、PaLM等大型语言模型的预估训练成本(来源:国盛证券)
据大算力AI芯片-存算一体专家陈巍测算,标准大小的ChatGPT-175B大概需要625台8卡DGX A100服务器进行训练,如果愿意等它跑1个月,200台8卡也够用。针对ChatGPT-175B的服务器成本(主要考虑GPU和CPU)约为3~5亿元。相对来说模型迭代成本没那么高。越往后迭代,大模型的训练成本可能会显著下降。自2020年5月GPT-3发布以来,与GPT-3性能相当的模型,训练和推理成本已经降低了超过80%。▲2020年对于具有对等性能的模型,与GPT-3相比,推理和训练成本降低的概览(图源:Sunyan)
而ChatGPT上线后的日常运营,又是一笔昂贵的算力开销。OpenAI CEO阿尔特曼曾在推特上回复马斯克的留言,说ChatGPT平均一次聊天成本是几美分。摩根士丹利分析称ChatGPT的一次回复可能会花掉OpenAI 2美分,大约是谷歌搜索查询平均成本的7倍。尤其考虑到ChatGPT面向全球大众用户,用的人越多,带宽消耗越大,服务器成本会更高。每天至少要烧掉10万美元。今年1月,ChatGPT累计用户数冲破1亿大关,访问量达6.72亿次。根据Similarweb数据,1月27日到2月3日,ChatGPT每日访客数达2500万。国盛证券估算,假设以这样的稳定状态,且忽略集群配置的请求量冗余和服务质量冗余,那么,ChatGPT需要至少30382片英伟达A100 GPU芯片同时计算,才能支撑当前ChatGPT的访问量;对应初始投入成本约为7.59亿美元(折合约52亿人民币);每日电费约为4.7万美元。另据招商通信测算,ChatGPT在模型上线运营阶段,每亿活跃用户将带来13.5EFLOPS的算力需求,需要6.9万台DGX A100 80G服务器支撑。按每个用户每天收到1500字回答计算,以2021年全球超算算力的总规模14EFLOPS,仅能支撑ChatGPT最多拥有1亿日均上线人数。微软、谷歌、百度等搜索巨头都计划将ChatGPT同类技术整合到它们的搜索引擎中。据SemiAnalysis估算,将这类技术集成到谷歌的每个搜索查询中,需要超过51万台A100 HGX服务器和总共超过410万个A100 GPU,服务器和网络总成本的资本支出将达到1000亿美元。这些支出的相当一部分,将流入英伟达的口袋。▲中信证券认为短期内单个大模型可带来超过2万个A100的销售增量,对应市场规模超过2.13亿美元(图源:中信证券)
▲近年大模型的参数规模增长趋势(图源:Xavier Amatriain)
提高峰值吞吐量方面,英伟达一马当先。2018年,英伟达CEO黄仁勋曾提出“黄氏定律”,称GPU的增速是五年前的25倍。自2016年首次在V100 GPU中用上张量核心至今,英伟达通过各种创新设计不断抬高单芯片算力的天花板。作为全球AI计算头部企业,英伟达坐拥高度粘性的开发者生态,同时始终保持着敏锐的前瞻性布局,例如在H100 GPU使用Transformer引擎来显著提升大模型训练的速度,通过在GPU、CPU、DPU、AI、互连、网络等多方面的投资布局持续拉大在数据中心的竞争优势。据浙商证券分析,采购一片英伟达顶级GPU成本为8万元,支撑ChatGPT的算力基础设施至少需上万颗英伟达A100,高端芯片需求的快速增加会进一步拉高芯片均价。 同时,数据中心日益需要更加高性价比、高能效的AI芯片。据Sunyan估算,今天,用于训练大模型的数据中心GPU,代际每美元吞吐量提高了50%,代际每瓦特吞吐量提高了80%。▲英伟达数据中心GPU FP16/FP32吞吐量/美元(图源:Sunyan)
▲英伟达数据中心GPU FP16/FP32吞吐量/瓦特(图源:Sunyan)
持续的芯片设计创新正推动了硬件成本和能效进一步优化。从基于训练GPT-3的V100到即将上市的H100的改进,预计可将内部训练成本从74.4万美元降至31.2万美元,降幅达到58%。▲今天使用英伟达H100 GPU训练GPT-3的成本(图源:Sunyan)
再来看看ChatGPT对于是否会使用来自英伟达以外供应商的AI芯片的回复:我们也问了ChatGPT关于其推理用到了哪些计算基础设施,这是ChatGPT给出的回答:到目前为止,AI推理市场还是以CPU为主。但生成式AI模型的计算量对于CPU来说可能太大,需要GPU等加速计算芯片加以分担。总体来看,模型训练和终端用户流量飙增正拉动大算力需求,GPU、ASIC、DSA、FPGA、光子计算芯片、神经拟态芯片等各类加速计算芯片与通用芯片CPU的组合迎来更大的市场。不止是海外芯片巨头,国内AI芯片企业也感受到了ChatGPT带来的春意。燧原科技创始人兼COO张亚林认为,生成式AI大模型的出现,让国内的算力基础设施提供商能够更有针对性地提供与AI大模型强关联的基础设施,这对于国内创业公司在有限资源下聚焦、持续产品优化迭代提供了帮助。他告诉芯东西,燧原科技最近接到了很多客户和投资人的垂询,正全力推动产品的加速落地,去年其千卡规模液冷集群已经落地并服务战略客户群,能够全面支撑国内外生成式AI大模型。在他看来,相较于英伟达等国际大厂,国内AI芯片企业的优势可能体现在成本、特定市场及场景深度优化、本土化服务和支持等方面。通过与全栈大模型团队紧密合作,国内AI芯片团队能让客户问题的解决和产品迭代的飞轮更加快速。考虑到全功能GPU能更好地兼顾灵活度和应用开发,李丰认为将来的生态,会很长一段时间以GPU为主,辅以其他类型芯片的生态。标准文件链接:
https://www.ccita.net/wp-content/uploads/2023/02/TCESA-1248-2023-小芯片接口总线技术要求.pdf3、片上互连与片间互连单芯片撑不动后,大模型需要借助大规模分布式计算,将计算和存储任务拆分到更多的芯片中,因此芯片与芯片之间、系统与系统之间的数据传输效率愈发成为掣肘硬件利用率的瓶颈。无论是英伟达、英特尔、AMD等芯片大厂,还是Cerebras、Graphcore、SambaNova等海外AI芯片独角兽,都采用并支持分布式计算模型,并借助更快的内部互连技术将算力扩大。当传统基于铜互连的数据传输显得捉襟见肘,引入光网络的思路,可能有助于大幅提升芯片内、芯片间的数据传输效率。国内曦智科技正在做相关探索工作。(具体可参见《掀起数据中心算力新风口!大规模光电集成有多硬核?》)曦智科技创始人兼CEO沈亦晨告诉芯东西,高能效、低延迟的互连技术已经是潜在的技术壁垒。对此曦智科技提出使用片上光网络(oNOC)代替模块或板卡间的电互连,提高实现更高带宽、更低延迟,从而辅助Chiplet系统提高单芯片的算力和算效,为面向未来AI加速器的多形态计算架构提供关键的片上互连基础设施。4、共封装光学(CPO)由于ChatGPT需要大流量的云服务器支持,能显著提高通信效率、降低功耗成本的CPO(共封装光学)概念走红,相关概念股近期震荡走高。▲同花顺CPO概念股2月15日涨跌幅情况
CPO通过将硅光模块和CMOS芯片用高级封装的形式耦合在背板PCB上,缩短了交换芯片和光引擎间的距离,为暴涨的算力需求提供了一种小尺寸、高能效、低成本的高速互连解决方案。芯东西曾在《光互连最火概念!中国原生CPO标准草案来了,决胜数据中心未来》一文中梳理CPO技术发展的关键阶段和国内进展。中国计算机互连技术联盟(CCITA)秘书长郝沁汾告诉芯东西,CPO本质上是光模块结构发生了变化,给国内企业带来了重构光模块生态链和供应链的一个机会。当前《微电子芯片光互连接口技术》标准正在过工信部的技术审定会,这是国内唯一原生的CPO标准,也是世界三大CPO之一,后续中国计算机互连技术联盟将联合相关企业围绕该标准推进联合开发及技术验证。*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。