来源:发现独角兽Pro 2022-06-13
在数字智能时代,软件定义芯片的理念将更加被市场接受,芯片行业将以CPU为中心向以DPU为中心演进,在不久的将来,单一服务器的网络接口速率有望向200Gbps到400Gbps迈进,拥有多变数据场景技术处理优势的DPU,这仅是DPU的优势之一。
当传统冯诺依曼架构无法满足数据中心要求,且后摩尔定律时代,CPU计算能力增速与网络传输速率差距持续拉大的情况下,DPU一跃成为“芯慌”时代的硬通货,凭借其在基础设施的独特地位与CPU、GPU并立,被业界成为芯片领域的“三大算力支柱”。
图|芯片(来源:Pixabay)
英伟达也兴奋地表示:DPU可让“3U一体”成为现实,也为此在2020年花了69亿美元收购了Mellanox。
从定义上不难看出,三者之间的定位及差异化,CPU(Central Processing Unit) 作为计算机系统运算和控制核心用于通用计算, GPU(Graphics Processing Unit)作为显示核心、视觉处理器用于加速图像和人工智能计算,而DPU(Data Processing Unit)则以处理器加速硬件对网络、存储、虚拟化、资源调度等进行加速处理。
随着数据中心网络向高带宽和新型传输体系高速发展,在不久的将来,单一服务器的网络接口速率有望向200Gbps到400Gbps迈进。加之存储压缩、数据加密、网络协议处理等大量数据涌入,数据的处理变得更加复杂,CPU和GPU都无法承载这一变局,而拥有多变数据场景技术处理优势的DPU,可解决数据中心的瓶颈问题。
DPU的出现标志着异构计算发展又迈出了实质性的一步,DPU作为管理和调度数据中心算力资源的芯片,已经成为业界的共识。
除了英伟达、英特尔等老牌芯片巨头,谷歌、亚马逊、阿里巴巴等互联网巨头也纷纷入局,将目光聚焦在高性能数据处理芯片上,DPU芯片大战一触即发。
01
芯片行业变革
从CPU为中心到DPU为中心演进
最近几年,随着5G网络进一步普及,以“大容量、低延迟、低功耗” 的边缘计算开始蓬勃发展。从性能上来看,后摩尔定律时代下,CPU算力增速逐渐放缓,其算力、网络传输速度等方面的瓶颈难以突破,主要表现在资源消耗、吞吐量、运营效率和成本上。
譬如,在数据处理、网络功能、虚拟网络、操作系统等方面产生的、除用户应用程序外的"数据税"既浪费了CPU资源,也让应用程序无法充分利用硬件的低延迟和高吞吐量。
中科院战略咨询研究院做了个估算:“要服务10G网络通信的协议处理,需要约4个Xeon CPU。如果考虑40G、100G这样的高速网络以及更复杂的运算,则会占据更多现有CPU资源。”
谷歌和Facebook相关研究也显示,微服务通信开销可以消耗22~80%的CPU资源。另外,传统智能网卡有一个缺点,必须通过Host CPU进行管理。传统智能网卡在高速的网络条件下,将损耗许多良好的CPU内核来进行流量的跟踪、分类和控制。这些昂贵的CPU内核是为通用应用程序而设计的,而并非为了网络数据包的查找和管理。
就好像CPU在对图像处理时低效类似,目前有许多的基础层应用CPU处理效果并不高效。例如网络协议处理、加密解密等计算密集的任务,将这些板级高速PCIe总线或者数据网络IO与系统联通,再通过共享主存经由DMA机制将数据提供给CPU或GPU来处理,同时处理大量的上层应用和各种特殊的IO类协议,这些复杂的计算任务让CPU不堪重负。
图|中央处理器(来源:Pixabay)
然而,“异构计算”在这些基础层负载中具有非常广泛的发展空间,把这些基础层负载从CPU上卸载下来,DPU的出现可以承接这些以基础层负载为代表性芯片,与CPU和GPU优势互补,建立起一个更加高效的算力平台。
未来,以数据为中心的计算架构将成为大势所趋。
这种以数据为中心的新型架构,可以简单理解为数据在哪里,计算就在那里。当数据在CPU上,计算就在CPU上;当数据在GPU上,计算就在GPU上;当数据在网络中传输的时候,计算就在网络中。以前以CPU为中心的架构典型GPU之间通信延时为30-40 微秒,而以数据中心的新架构典型GPU之间通信延时仅为3-4微秒。
在以CPU为主体的系统中,假如所有的操作都用CPU来做,将OVS(虚拟交换机)放在CPU上,更多CPU的核会被消耗,并且OVS运行的效率也很低;如果把OVS操作放在DPU上,不仅可以较大程度上提高这个包的转发率,还可以实现OVS操作和CPU业务之间的隔离,大幅降低长尾延时。
DPU作为数据处理和运维的中枢,在以数据为中心的计算架构中一个十分关键的技术,它可以负责将不同的数据调度给最合适的CPU、GPU或DPU自己进行处理。
从全球市场来看,DPU需求旺盛,据智能计算芯世界数据显示,“从 2020 年的 30 亿美元增加到 2025 年内的 136 亿美元,CAGR 约 36%,到2027年全球数据中心加速器市场价值可达530亿美元,复合年增长率CAGR 近 44%。”
02
软件定义芯片
DPU或将成为第三颗主力芯片
不管商业模式如何变化,技术驱动始终是芯片行业变革的底层逻辑。除了弹性调度和软硬件融合亮点之外,DPU最大的亮点是可编程性,它集行业标准的高性能及软件可编程的多核CPU、高性能接口、灵活且可编程的加速引擎三大要素于一身,可以让Host主机无需安装任何新的驱动,就能真正解决不同厂家网卡采用不同的网卡驱动,导致网卡设备碎片化等难题。
DPU具有高性能“CPU+可编程硬件”,不仅能跟实现标准网卡功能,还提供灵活的软件定义能力,为云商家自己定义的云基础设施服务。如果能将DPU智能网卡的性能提升,可最大程度释放CPU资源。同时,通过统一架构、统一管控实现内外一张网提升网络性能,节省网关/专线,减少Buffer,进而收敛机型、降低成本。
在数字化转型加速兼软件化外溢的背景下,高渗透率行业也在自我革新,将应用场景的硬件专用化以及近期智能驾驶芯片的完善,都逐渐体现出将计算量大、数据带宽高的应用放到专用芯片的趋势。
DPU市场首先吸引的是国际芯片巨头的进入,英伟达DPU直击数据要点,并表示CPU、GPU 和 DPU 的结合可构成完全可编程的单一AI计算单元,提供前所未有的算力和安全性。甚至就连老牌芯片厂商英特尔也在加速开发芯片卸载CPU负载,面对DPU市场英特尔表示:“与其被别人卸载,不如我自己卸载”。
另外,中国的DPU市场也表现出旺盛的需求,据头豹研究院预测,“中国DPU市场规模预计在2022年超10亿美元,2025年接近40亿美元,复合年增速CAGR达112%。”
鉴于此,我们对国内外芯片市场做分析时发现,国内头部DPU企业云豹智能是由麻省理工学院(Massachusetts Institute of Technology,MIT)前讲座副教授萧启阳创办的。其之前创办的RMI公司带领的团队,于2011年打败了现任美国超微半导体公司(AMD)CEO Lisa Su(苏姿丰)曾经带领的Freescale团队,赢下了中国最大的4G基站处理器订单。RMI的多核处理器产品也用在国内最大电信设备商的第一代智能网卡里。
萧启阳拥有30余年的网络和分布式计算研究经验,在其担任MIT讲座副教授期间,曾获得了IEEE和SPIE颁发的最佳研究论文奖,其中在1997年,他获得IEEE颁发布劳德·汤普森纪念奖(Browder Thompson Memorial Prize),是当时全世界所有领域及三十岁以下作者的IEEE最佳论文奖。
图|萧启阳博士(来源:云豹智能)
萧启阳在MIT任职期间,思科、朗讯等公司邀请他做技术顾问,由于其具备企业家精神,2002年离开MIT以创业者的身份创立了首家公司-RMI,并利用MIPS做了一款当时是世界通讯领域方面最高性能的多核处理器,这也是萧启阳所做的第一款“软件定义芯片”。
7年之后,萧启阳推动了NetLogic(一家网络处理器公司) 对RMI的收购,之后出任NetLogic亚太区总裁兼总经理,2012年再次促成博通公司(Broadcom)以37亿美元现金高价收购NetLogic。
图|上市公司并购(来源:资料图)
2020年,萧启阳召集昔日跟随其创业的团队及其他业界精英,共同创立了云豹智能,他希望做一款能为行业带来颠覆性效果的国产芯片。
除了萧启阳之外,核心创始团队拥平均超过20年芯片行业及大规模商用从业经验,从芯片设计和架构师、系统架构师、云计算和软件专家到市场和销售资深团队,主要来自英特尔、博通、海思、阿里巴巴等公司,其中核心联合创始人是业界硬件实现Virtio虚拟化首先提出者和技术实现者,另一团队成员还拥有中国目前最成功的智能网卡开发经验。
该团队对国内最大的几家云服务商的需求和达千种不同的应用场景都非常熟悉,甚至比海外芯片大厂对中国DPU行业领域的理解更深入。
除了团队优势外,云豹智能的优势主要在“软件定义芯片”,云豹DPU具有可编程性且非常灵活,与其他DPU产品相比,性能效率可提升4-10倍,还可同时支持裸金属、虚拟机和容器场景,架构设计可替代当前CPU+FPGA+NIC解决方案,具备完全可编程和加速能力,编程友好易用。
兼顾团队与技术优势的云豹智能目标并不是只想做性能最高的DPU,而是想做性价比最高的DPU。一是满足产品快速商业落地的目标,占领最大的市场份额;二是用最核心的芯片架构,去支持高性能、高吞吐量的虚拟化与不同云场景的应用,以提高运营效率与降低硬件及运维成本。
在一触即发的DPU大战中,客户对DPU异构计算的需求会越来越多,芯片产业链上众多公司的入局,势必会引发新一轮人才争夺战。据了解,云豹智能目前有近400人,正在加速产品研发,为客户提供搭载该芯片的智能网卡产品和软硬件一体化的解决方案。
全球DPU市场方兴未艾,芯片领域的变革将为中国的初创型企业带来新的机遇,近几年中国政策大力支持DPU发展,今年工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》,直接要求加快提升算力、算效和DPU异构算力。
未来,DPU产品将在虚拟机云服务、裸金属云服务、运营商5G及传统互联网服务等场景中规模化应用。