云天励飞李爱军：揭秘大模型时代，边缘计算芯片进化论丨GACS 2023

芯东西 | 2023-10-11 08:32:05 阅读：259

解读边缘计算芯片运行大模型的挑战与机会。

编辑 | GACS
9月14日~15日，2023全球AI芯片峰会（GACS 2023）在深圳南山圆满举行。在15日的高能效AI芯片专场上，云天励飞公司的副总裁、芯片业务线总经理李爱军，分享了主题为《大模型时代下国产边缘计算芯片的挑战和突围》的主题演讲。李爱军在演讲中说，大模型的出现让边缘计算看到了Corner case的破解之道。全球边缘计算市场规模不断扩大，但面临着场景、芯片平台、算力需求碎片化的痛点，算法投入产出不成正比。大模型具有强大的图像或语言理解能力、场景泛化能力，有望解决这些痛点。为满足大模型部署需求，边缘计算芯片设计需要考虑SoC集成、算力可灵活扩展芯片架构、统一的工具链架构、隐私保护等方面因素。李爱军谈道，云天励飞基于其自研算法开发平台和算法芯片化平台，不仅训练了“云天天书”大模型，还推出了新一代边缘计算芯片平台。以下为李爱军的演讲实录：大家好！我是云天励飞的李爱军，今天我给大家带来大模型边缘计算芯片的挑战和突围的主题分享，我的分享里面有三个关键词：一个是边缘计算，第二个是大模型，第三个是国产芯片。为什么是这三个关键词？我们大家都知道，AI在落地的过程中，特别是芯片，主要涉及到端、边、云三个大的场景。对于芯片来说，云和端这两个场景相对而言比较明确。比如说云，主要是拿来做训练，强调它的通用性；对于端，它强调场景非常聚焦，比方说手机，强调了它极致的能效比；中间的边，就代表边缘计算。而边缘计算场景对于整个AI来说，实际上是一个全新的场景，过去这十年，大家都在这个场景里面探索。边缘计算这个场景本身给大家带来的想象空间也是非常巨大和无限，因为大家对于边缘计算的共识是场景非常的丰富。大模型自从去年11月份ChatGPT出来以后，已经经历了大半年的过程，大家也都能看到，整个AI的方向基本上已经非常明确，或者说大模型代表AI的第二阶段。大模型在云端带动了整个GPU，在端侧，包括手机也在迅速跟进，高通的手机芯片，以及类似苹果、华为这些业内的顶尖厂家，都在陆续推出基于端侧的大模型。对边缘计算来说，大模型跟边缘计算有没有结合点、交叉点？这是我们在思考和探索的。另外一个是国产芯片，在现在这样的大国际形势下，国产芯片，特别是国产工艺芯片，我想这已经是一个绕不开的主题了。我相信在边缘计算这个场景下，在不久的将来，一定会有一家企业基于国产的工艺推出满足边缘计算场景的突破。我将从下面三个方面进行主题分享。
01.三个技术平台，实现“算法芯片化”

云天励飞是一家什么样的企业？云天励飞是一个应用驱动的技术型企业，公司是2014年的8月份成立的，云天励飞是一家为数不多的，具有算法、芯片、大数据全栈能力的AI企业。在过去九年时间里，我们探索出了一条AI落地的一套方法和设计平台，就是算法芯片化这样的设计平台。通过这个平台，我们有效地把AI的算法、边缘场景的落地，以及AI处理器的指令集和芯片架构、工具链，能够有机整合在一起。通过应用产生数据、数据训练算法、算法定义芯片、芯片赋能应用，这样的一个数据飞轮，我们不断地推动AI在边缘场景的落地。云天励飞的算法芯片化平台，它由下面三个可落地的技术平台组成：第一个是应用落地驱动的算法平台。在这个平台上，我们实现了算法超过14个领域，以及102个种类的落地。同时，这些算法可以支持端云协同，支持细分场景下的算法快速微调和部署。同时基于这样的平台，我们也正在研发云天励飞的“云天天书”大模型。二是算法驱动的神经网络处理器平台，通过这个平台上，我们能够实现算法高效推理的指令集设计。同时，基于这样的平台，我们也完成了四代神经网络处理器的迭代。并且得益于这些迭代，我们能够高效地支持卷积神经网络（CNN）以及新一代的Transformer计算范式。并且能够高效地支持目前大家所熟悉的，包括视觉大模型、多模态大模型、NLP大模型在边缘端的高效部署。三是面向边缘计算场景的芯片平台，通过这样的平台，我们实现了三代可商用的边缘计算芯片的落地，并且算力范围从2TOPS到128TOPS的这样的覆盖。我们通过这个平台，实现了D2D Chiplet这样的先进封装技术，这个可能是基于国产工艺，第一个进入可量产的Chiplet技术。同时，基于这样的平台，我们还实现了C2C Mesh这种高效互联技术，通过这样的互联技术，我们可以实现算力的灵活可扩展。
02.大模型时代下，边缘计算芯片面临多重技术挑战

在大模型时代下，边缘计算芯片具有哪些挑战。我们知道，整个边缘计算场景，它的规模是呈不断扩大的趋势。那什么是边缘计算？边缘计算，它卡在端和云的中间。边缘计算又分成Edge Device和Edge Server两个细分场景，包括有边缘的智能终端设备、边缘的智能网关，以及边缘服务器这些场景。据IDC的预测，到2023年底，全球的边缘计算市场将达到2000亿美金的规模，年增长率也非常高，达到13%以上。预计到2026年，边缘计算市场将突破3000亿美金。可以说，这是一个非常值得大家期待的AI落地的场景。

1、边缘计算场景落地痛点：Corner Case难以有效解决但是在落地的过程中，特别是云天励飞过去九年，我们在落地过程中，我们所看到的现状是怎样的？首先边缘计算的场景非常众多、纷繁复杂，有园区、安防、商业、教育等等。这么多的场景，场景的要求又各种各样。同时，在边缘计算场景落地的芯片平台种类也是五花八门，有X86架构的、ARM架构的，有FPGA的，也有SoC主控芯片，也有算力芯片，甚至传统的NVR芯片也被归在这个类。算力的需求也是极度碎片化的，从0.5T算力，到几十T甚至到几百T，需求各异。同时对数据精度的要求也不一样，有INT8的要求，INT12的要求，还有FP16的要求。

从算法角度来说，算法投入产出不成正比，难以实现商业闭环。算法从研发训练出来，在场景落地的过程中，会遇到各种各样的精度、识别度的问题，以及目标变化的问题。目标变化并不是目标本身有变化，而是这个目标的姿态有变化，比如说一个猫，正面看像是猫，可是背面看就不认识了。这需要算法不断进行迭代和训练，这就导致整个落地的过程中成本不收敛，也就是我们做一个项目，不挣钱甚至亏钱。因为整个落地过程中客户对于整个体验是不满意的，客户不满意就不会给方案商继续下订单，方案商没有订单，意味着芯片原厂也没有订单，这就形成了碎片化的恶性循环，这就是当前边缘计算场景落地的困境。边缘计算场景的痛点究其问题，最大的痛点在哪里？在于场景的Corner Case难以有效解决。我们以长尾算法为例，长尾算法的开发部署要经历，第一个是单场景数据的搜集，还有算法的训练，产品的测试，再到应用部署4个环节。这里面有两个循环，一个是产品研发阶段的小循环，还有一个产品研发完以后去部署应用的时候，还有叫Corner Case的持续的循环。因为这两个循环的存在，导致整个落地成本居高不下。2、Corner Case破解之道：大模型的运用大模型的出现，让我们看到了解决场景边缘，特别是解决边缘计算场景的Corner Case的希望。大模型现在有两种，一个是CV（计算机视觉）大模型，一个是NLP（自然语言处理）大模型。CV大模型具有什么样的特点和优势？首先，CV大模型具有强大的图像理解能力，同时它也具有强大的场景泛化能力，这意味着它可以实现在摄像头视野范围内所有目标的分割、检测和深度估计，为泛场景的精确识别提供技术保障。这里面我们可以看到目前的开源网络，包括Dino-v2、Segment-Anything、Ground-Dino等等这些算法。而NLP大模型，它有强大的语言理解能力，以及强大的多轮交互能力，这意味着算法能够快速、准确地理解用户指令，从而可以实现场景Corner case的精准操作。CV大模型与NLP大模型的结合，在边缘计算场景的落地，让我们能够看到Corner Case有被解决的希望。

3、边缘计算芯片运行大模型的双重挑战大模型在边缘计算场景运用，对于边缘计算芯片有什么样的要求和挑战呢？对于AI处理器而言，因为大模型带来全新的计算泛式和计算要求，它需要AI处理器能够高效地执行Transformer这样的计算范式，同时要能够高效执行包括Softmax、Layer norm等新算子，它的算力要求要大，大模型的算力，特别CV大模型的算力是传统小模型的几倍甚至十几倍。因为大模型的参数量巨大，它对于内存的带宽要求以及内存容量要求，相比原来的小模型也是翻番，甚至翻几番。另外大模型同样带来了对边缘计算芯片的全新设计要求。大模型在边缘计算场景落地，需要形成边缘的计算芯片上全业务的闭环。这就意味着对边缘计算芯片，不光对于算力有要求，还需要芯片是一个具有SoC集成度的芯片要求。也就是它不光要有AI算力，还要有相对比较强的通用算力，包括CPU、GPU等等。

因为大模型在落地场景中参数规模有变化，有可能10亿规模，也有可能百亿规模，也有可能是几百亿规模，它希望芯片的架构是一个算力可灵活扩展的架构，在应用的时候可以量体裁衣，根据场景的要求选择不同的算力。不同算力的芯片对于算法来说，希望有一个统一的工具链架构，而不是说这个算力场景我要用这家芯片，那个算力用那家芯片，而工具链又是各家做各家的。如果这种情况下，整个大模型在边缘场景下的落地仍然会举步维艰。同时大模型因为比传统的小模型带来一些优势，包括泛化的优势、理解的优势等，对于用户的数据，它的处理量级比小模型会大一个数量级甚至两个数量级，也就是有更多海量的用户数据会被在边缘侧处理，同时这些数据的理解也会更加深刻，这就带来用户数据的隐私保护的问题。
03.加速大模型落地边缘场景，解构云天励飞的架构创新

在边缘计算芯片这些技术困境下，云天励飞做了哪些事情？首先是云天励飞正在自研“云天天书”大模型，这个大模型是基于云天的算法开放平台和算法芯片化平台，通过结合互联网上海量的语料数据，训练出通用的基础大模型。在通用基础大模型的基础上，结合云天励飞过去九年来的沉淀积累，训练出行业大模型，这里面就包括智慧城市、智慧安防、智慧交通、智慧商超等等，这些领域的行业大模型。之后再针对落地细分的场景，将数据集进行微调，从而实现真正可落地的，满足场景泛化要求的场景大模型。云天天书大模型也是由CV大模型、NLP大模型和多模态大模型组成。在芯片侧，云天励飞打造了新一代的边缘计算芯片平台DeepEdge10。它是一个系列化的芯片平台。它是基于国产的工艺，可以说这颗芯片是真正的国产芯片。其次它采用了先进的Chiplet技术，它能实现算力的灵活扩展。DeepEdge10是具有SoC主控集成度的芯片，内置了云天最新的第四代神经网络处理器，可以高效支持大模型边缘侧的执行和落地。另外它实现了D2D Chiplet创新技术，同时实现了D2D/C2C Mash扩展架构，来实现算力的灵活可扩展。在主控集SoC方面，DeepEdge10具有性能强劲的、主流的CPU核。另外它集成了满足边缘场景应用的2D/3D的GPU能力，同时集成了第四代神经网络处理器400T，所以它具有澎湃的边缘AI的算力。它还有强大的多媒体能力，包括对于8K30视频以及2亿像素的图像处理能力，还有不错的显示能力，支持双屏异显等等。它有完备的高低速外围接口，例如我们熟悉的USB、PCI等，包括以太网口都全部支持，甚至还支持CAN FD，可以满足工业场景的实时连接需要。同时，它具有硬件级安全特性，支持国际主流的加解密算法，同时支持安全boot，以及物理级的安全系统。DeepEdge10内置了云天励飞第四代神经网络处理器，具有这些特点：首先它的数据格式，它是支持FP16、INT16和INT8这些精度，因为有了这些支持，我们得以做混合精度量化。另外支持多线程执行，同时支持QAT模型、支持动态量化模型、支持最新的Transformer网络结构模型。对于大模型的新的计算，我们有哪些考虑呢？首先是我们设计了三维并行的矩阵计算架构。结合矩阵计算和矢量计算的联合优化，我们可以高效地提升像Softmax、LayerNorm这些算子的性能。通过稀疏化、参数/数据的压缩和低比特量化技术，我们可以实现大模型对带宽要求的极致优化。通过INT8、INT16、FP16，可以实现混合数据精度的量化，从而保证大模型在边缘侧落地的时候几乎不掉精度。通过D2D以及C2C的高速互联接口，可以实现算力的灵活扩展。DeepEdge10芯片是国内首个基于国产工艺量产的D2D Chiplet芯片。D2D就是die to die，意味着两个die之间高速互联。我们采用的die to die技术具有非常高的速率，还有带宽的密度、pJ级功耗级别，以及纳米级延时等等，包括传输、路由、统一内存等等。因为有了这些特性，所以我们才能够负责任地说，我们可以支持当前的大模型，包括百亿大模型乃至千亿大模型参数大、计算量大、低延时的要求。通过以上的创新，云天励飞打造了DeepEdge10这样基于国产工艺的芯片平台，我们形成了一个系列化的芯片。这样的芯片平台我们可以有效地支持当前在边缘计算场景落地的，从迷你PCIe卡、AI盒子、加速卡，到边缘服务器等各类硬件产品的需要，从而实现整个丰富边缘计算场景的落地。我们通过架构的创新，可以说DeepEdge10实现了国产芯片在边缘计算场景的突围。云天励飞致力于国产工艺以及国产大模型边缘计算芯片的突围，不论遭受怎样的外部压力，我们矢志不渝。谢谢大家！以上是李爱军演讲内容的完整整理。

芯东西

芯东西专注报道芯片、半导体产业创新，尤其是以芯片设计创新引领的计算新革命和国产替代浪潮；我们是一群追“芯”人，带你一起遨游“芯”辰大海。

832篇原创内容

公众号

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。