后摩智能吴强：存算一体匹配智能驾驶新需求，实现极低功耗下的大算力丨GTIC 2022

芯东西 | 2022-09-09 18:18:57 阅读：286

用更多底层技术，打造1P/W的算力，追逐万物智能的梦想。

编辑 | GTIC
芯东西9月8日报道，在刚刚落幕的GTIC 2022全球AI芯片峰会期间，后摩智能创始人兼CEO吴强以《用存算一体助力智能驾驶算力革命》为题发表演讲。吴强认为，存算一体是解锁算力和功耗难题的金钥匙，这种创新计算架构具有大算力、低功耗、低延时的特点，对工艺的依赖较弱，能用28nm工艺做出基于传统计算架构的其他AI芯片用7nm甚至5nm工艺才能实现的性能或者能效比。今年上半年，后摩智能首颗存算一体芯片成功点亮，首次达到运行智能驾驶的复杂AI场景所需算力和精度需求，成功跑通11个类别的智能驾驶典型算法，能效比高达20TOPS/W。吴强透露，其首颗芯片预计在今年底或明年初送到一部分客户侧试用。以下为吴强的演讲实录：大家好，很高兴能代表后摩智能来参加这个峰会。我今天演讲的主题是《用存算一体助力智能驾驶算力革命》。这里面有两个关键词，第一个是存算一体，第二个是智能驾驶。我先从智能驾驶讲起。
01.智能驾驶普及商用，对芯片提出新的要求

汽车产业正经历一个百年未有的大变局，主要是新能源化和智能化，它对人们的出行方式、生活方式都会带来很大改变，这种改变某种意义上不亚于100多年前汽车刚刚出现的时候。在今天的中国，走在智能化和电动化的前列，我们已经能够感受到这种改变，比如说今天在大部分城市，你上了一个网约车，很大概率这是一个新能源车，你会听司机跟你说新能源车比燃油车便宜多了，口袋里很多钱、很幸福。不管是新能源车还是传统燃油车，汽车智能化是一个主要的趋势，并且这种智能化的趋势比我们想象要快。比如说很多专家预计2023年可能智能化普及率到25%，但事实上我们今年L2及以上的智能化普及率已经接近30%，到2025年可能接近50%。这意味着我们中国每年有2500万辆的车，大概有1000多万辆车会有L2或者以上的智能化。这种智能化也改变了我们生活，很多是一种刚需，前几天，一个朋友跟我说，他因为家里有事情，要开车回家单程1000公里，一个周末，2000公里在高速上，如果有智能辅助驾驶是很轻松的事情。智能驾驶智能化的普及和商用，对芯片提出了很多新的需求，要普及智能化有三个要素：一是强智能，就是这个东西足够聪明，至少让我在高速上开1000公里也非常轻松；二是低成本，因为中国大部分的车是在10-20万人民币，而这些车能用得起；三是安全，用车是人命关天。从芯片的角度来说，它对应着是大算力、低功耗、低成本、高可靠。从算力的角度来说，智能芯片发展到今天，有一个核心的矛盾。
02.智能驾驶芯片发展的核心矛盾

在需求侧，算力需求不断增长。比如我这里比较了特斯拉Model 3和今年刚发布的蔚来的车：第一，传感器多了很多，像素也多了很多，120万到800万更高，这都会对应着算力大大加强；第二，算法变得更加复杂，并且还在不断演进，这意味着我需要芯片对算法有更开放的一个支持，因为一定要能够支持未来的算法。而目前的做法是什么？首先，我要做大算力，以前是几十TOPS，现在是几百甚至到千TOPS。在智能驾驶芯片，那么我用先进的工艺，从7nm到5nm甚至到3nm，我用HBM来增加存储带宽。但这些东西，第一，非常昂贵，只有大厂才玩得起，比如HBM就是英伟达和AMD做得最好。另外一种方法像用软硬耦合的方式来增加效率，这种提高了效率，但牺牲了通用性。所以某种意义上来说，今天我们在智能驾驶计算面临的核心矛盾是：第一，要大算力，但是用传统的方式去做，成本非常高。第二，大算力必然代表着大功耗很高，因为差不多都是1TOPS/W的水平，而在数据中心可以用空调，在车上我没办法散热，散热就产生很大成本和稳定性问题。最后，一定需要一个软硬解耦的方案，这是今天我觉得智能驾驶芯片面临的一个核心的矛盾。

03.存算一体，解锁算力和功耗难题的金钥匙

在所有的方式当中，存算一体，是一种创新的计算架构。在所有的新技术当中，它可能是能够解决我们今天算力和功耗的一把金钥匙。从传统的冯·诺依曼到今天的存算一体，存算一体严格意义上它不是近存，近存我理解它是改良，它只是部分解决问题，而只有真正的存算一体才能从底层去解决这个问题。它的能够带来的好处是：可以把算力做得更大，另外它天生有能效比的优势，可以避免大数据的搬运，它可以把能效比做一个数量级上的延伸，它的延时也有提升。还有一个最重要的点，很多人没有意识到，在今天的国际大环境下，我们面临着技术封锁，存算一体对工艺的依赖比较弱，它可以用更传统的28nm工艺做出别人7nm甚至5nm的性能或者能效比，这也是它天生的优势。但它也面临挑战，毕竟它是一个新的东西。我也一直类比，就像电动车刚刚出现的时候有很多设计上的挑战，因为燃油车毕竟做了上百年，而电动车刚刚开始。因为冯·诺依曼也做了很多年，大家都知道怎么设计，而存算一体怎么做大算力，这是个刚刚开始的事情。后摩选择用存算一体芯片，做智能驾驶、无人车、仿生机器人等边缘端场景，这本身从技术、产品和市场是个比较完美的匹配。那么我们怎么把存算一体的技术优势变成一个产品优势，并且能解决下游客户具体的痛点。举一个具体的案例，很多中档的车，他们是很在意成本的，而散热其实是个很大的问题，有三种方式，一个是自然风冷，一个是风扇，或者液冷。自然散热无论从成本、可靠性都是最理想的，但是这有一个强制要求，就是功耗在15瓦以内。传统的NCU大家没有问题，大家都是自然散热。而智能驾驶给车厂带来一个新的头疼的问题，从来没遇到过芯片那么热，怎么散热，能不能不用液冷、不增加成本，这是车厂很关心的问题。如果在传统冯·诺依曼架构上，差不多1瓦1TOPS的样子，15瓦大概20TOPS或者更高一点，这其实满足不了L2++或者更高自动驾驶的需求。而存算一体它能够用能效比高的特点，做到比如15瓦的功耗算力达60TOPS（物理算力），或者更高的算力，满足L2++智能驾驶的需求。
04.首颗存算一体芯片今年点亮成功跑通主流智能驾驶算法

简单介绍一下后摩，后摩主要是两拨人，一拨人做存算一体的大牛，另外一拨人是像我这样在工业界做了20年、在做大芯片、做过CPU、GPU，或者智能芯片的一拨人。我们两拨人一起碰撞，怎么解决我们面临的问题？我们一起想到了这些比较认可、比较看好存算一体做智能驾驶芯片、做大算力芯片的路径，所以我们走到了一起，成立了这家公司。后摩也得到了一线资本的认可，目前在南京、上海、北京、深圳设有研发中心，我们今年也点亮了第一款大算力的芯片，并且跑通了一些智能驾驶的主流算法。用存算一体做大算力芯片，这是一款AI芯片，怎么去设计电路，怎么做AI核融合，比如架构层面，包括编译器、算法层面怎么去融合，这些都是我们成立以来面临的挑战，是我们要解决的核心。后摩成立一年多，现在也申请了大概30多项的专利。

我举个例，这是我们第一代的AI核的设计，整个都是我们自己设计，采用了分层分布式的设计。从右边开始是最底层，我们叫Macro，是存算单元，它是在存算里做计算的单元，根据不同需求，它可以有不同大小，比如512×64、64×64。若干的Macro可以组成一个Macro Group，多个Macro Group可以组成一个Macro Group Array，Array就变成了Tensor Engine这儿的一部分，我的Tensor Engine主要是Macro Group。一个Tensor Engine组成了一个Tile，有点于类似于FSD的Core，是一个独立运算单元。若干Tile可以组成AI Core，多个AI Core又可以组成Cluster，Cluster变成了SoC，就是车规SoC里最重要的AI计算单元。整体来说，一个Tile之间本身类似一个FSD Core，是一个独立运算单元，多个Tile之间也可以联合起来进行运算，多个AI Core也可以联合起来做一个联合运算。所以整体来说它是一个分布与集中的完美的结合，这是我们第一代的设计思路。我们成立以来，去年成功做了第一颗流片，这颗流片是业内第一次把存算一体做到了几十TOPS甚至更高的芯片，能效比20TOPS/W左右。我们把它点亮，并且成功跑通了一些主流的智能驾驶算法，比如像检测、识别、语义分割。这应该也是业内第一次用存算一体芯片做出了能够做智能驾驶主流AI应用场景的尝试，这是按照一个量产的设计，我们考虑了冗余、自修复等等，是完全按照一个产品级的设计。我们第一代芯片希望今年底或明年初能够送到一部分客户去试用，这是我们产品方面的一些进展。
05.未来规划：奔向100倍能效比、2000TOPS算力

再说一下我们未来几年产品的规划。后摩做存算一体，它是基于不同的存储介质，前几代基本上基于成熟的SRAM去做，SRAM现在比较成熟，性能也好，但它容量有限。我们希望在用SRAM我们能做出至少能突破500TOPS到千TOPS之间的大算力芯片。2.0阶段，我们芯片是基于更先进的如MRAM、RRAM等存储介质来做的。我们希望它本身有更大的容量，能够做出更大的算力和更高的能效比，可以推出更有竞争力的产品来。后摩的芯片是通过底层进行架构创新，对于客户来说是无感知的，他不在乎你是怎么实现的，他不在乎你是用存算还是冯·诺依曼，他只要看到一个更好的产品，有更好的性能、更好的延时等等，这是我们希望的结果。对后摩来说，软件更加重要，我们尽可能希望能够对接主流的AI的编程框架，包括比如应用层TensorFlow、PyTorch、ONNX这些，然后我们自己提供一个中间层，能够进行无感转化。我们只做推理，希望有一层很轻的工具，把这些推理的模型进行转换，让大家做到无感。另外，我们做相对通用的计算芯片，我之前说了，算法一直在演进，大家对开放性是有要求的，因为本身算力是个底层的架构，可以做到很通用，我们可以提供一系列的计算的架构，还能提供类似底层的接口，可以让客户自定义算子，这是我们在软件方面的一个规划和正在做的事情。

总体来说，这是我们软件栈，基本上我们希望是个软硬解耦的设计理念，这里面有三个颜色，看起来有点多：棕色是我们提供的硬件、芯片、驱动软件、SDK；黑色是我们会提供一个参考设计，包括参考的硬件、解决方案；灰色是客户自己的东西，更多是应用层，包括他们的操作系统、中间件等等，基本上是三层。我们希望给客户，把软硬解耦的方式，我们提供一个参考设计，让客户有最大的灵活度开发自己的东西，这是后摩智能的设计理念。
06.愿景：打造1P/W的算力，支撑万物智能

最后分享一个有趣的产业观察。我觉得在一个国家或者一个地区，一个产业的繁荣一定会带动或者孵化出本地供应链的龙头企业。打个比方，比如说在七八十年代日本消费电子，大家记得摄像头等的繁荣，诞生了像松下、索尼这样一些优秀的半导体企业。到90年代，美国PC产品的繁荣，当然也带动了英特尔、AMD这些大的半导体公司。原因很简单，因为产品的厂商跟供应厂商它会有一个良性的循环，产品厂商会把需求给供应商，供应商就能够做出更好的部件、更好的服务，因为是本地，反过来厂商会把更多的订单给供应商，最后形成一个良性的循环。所以我自己的结论是说，中国汽车在电气化和智能化它一定会崛起，这是一个趋势。它必然会带动本土供应链公司，包括芯片公司做大做强。所以我也希望我们后摩智能以及在座的一些兄弟AI芯片公司，能够抓住这个历史机遇，做大做强，做出中国自己的芯片国际巨头。

最后，我讲讲后摩智能的愿景，左边这个图是从刘明院士的演讲里摘取的，她讲了一个有趣的事，说芯片能效比每提升1000倍都会延伸出一个新的计算形态，比如小型机时代差不多1M/W，PC机时代差不多1G/W，而我们现在的手机时代差不多1T/W。她的预测是，如果到未来，真到了万物智能的时代，也许我们需要1P/W的计算能力和能效比。我很喜欢刘明院士这个演讲，我把它引进来，也表达后摩智能创业的初心，我们希望用更多底层的技术去打造1P/W的算力。后摩智能早期从无人车、机器人、乘用车的智能驾驶作为切入点，把产品落地，为客户创造价值。未来，希望能向仿生机器人、VR/AR这些领域去拓展，最终我们希望能够打造人工智能时代的一个算力平台，去实现万物智能的美好愿景。以上是我的分享，谢谢大家。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。