新闻资讯2024-07-26
2024-07-26

算网融合成趋势,DPU作用不可小觑

转自  晶报APP  2024-7-26

在人工智能席卷全球的浪潮下,我们正在跨入一个新算力时代。

国家工信部等“六部门”联合印发的《算力基础设施高质量发展行动计划》(以下简称“计划”)中指出,要围绕计算力、运载力、存储力以及应用赋能四个方面高质量发展,并提出2025年的发展量化指标。“计划”还强调,将针对智能计算、超级计算和边缘计算等场景,开展数据处理器(DPU)、无损网络等技术升级与试点应用,实现算力中心网络高性能传输。

由此可见,未来需要的不仅仅是单一的算力中心,而是一个高效的面向广泛业务场景的算力集群。这就要求必须要打造一个将算力和网络融合在一起(即算网融合)的基础设施。这当中,DPU将扮演不可或缺的重要角色。

算网融合,必然趋势

根据中国电信和云豹智能等编撰的《云网融合下智能算力网络应用发展白皮书》(以下简称“白皮书”)所述,算力网络是一种架构在IP网之上,以算力资源调度和服务为特征的新型网络技术或网络形态。相关算力网络旨在突破诸如数据中心、超算中心、云计算、边缘计算等“孤岛”状态下的计算能力限制,构建算网云一体的新型智能、高效、按需的算力服务体系。

针对不同的终端应用,给智能算力网络提出了不同的需求。

“网络边缘区域需要低时延,高算力特性;网络传输区域需要高带宽,低时延特性;核心网络需要高数据吞吐、巨量通用CPU算力和高并行GPU算力的特点。”白皮书举例说。另外,在不同的网络分层结构中,云网需要面对复杂多变的应用场景,现存的网络中包含数据中心、超算中心、边缘云等“孤岛”网络,各自为战,不能有效地最大化算力资源的利用率。

这时候,SRv6网络协议就能发挥重要的作用。

目前,电信运营商正在积极引入网络虚拟化(NFV)、SRv6等先进技术,实现网络资源的灵活调配和高效利用,建设和发展智能算力网络,提高网络的承载能力和服务质量,从而在满足用户对高速、稳定网络需求的同时,有效控制成本。

SRv6,势在必行

据介绍,是基于IPv6转发平面的段路由。简单来讲即SR(Segment Routing)+IPv6,是新一代IP承载协议。其采用现有的IPv6转发技术,通过灵活的IPv6扩展头,实现网络可编程。

作为新一代IP承载协议,SRv6采用现有的IPv6转发技术,通过灵活的IPv6扩展头,可实现网络可编程。又因为简化了网络协议类型,使得SRv6具有良好的扩展性和可编程性,可满足更多新业务的多样化需求,提供高可靠性,在云业务中有良好的应用前景。从应用上来看,SRv6可以被视为对传统的基于 MPLS(多协议标签交换)的流量工程和Segment Routing 技术的升级和扩展。它利用了IPv6地址的灵活性和可编程性,提供了更强大的网络功能和灵活性。因此,在智能算力网络建设的进程中,SRv6 正逐渐展现出愈发关键的作用。

然而,传统支持SRv6的网关在数据面和管控面的实现方案主要依赖通用CPU以软件形式实现,虽然这能够快速打通业务功能和逻辑,但却需要额外消耗CPU算力资源。因此,如何设计和利用高性能芯片的硬件加速卸载能力,以提供有效的数据吞吐能力,成为提高智能算力网络功能和性能的重要因素。

于是,DPU横空出世,成为了新的“救世主”。

DPU,走向台前

全球最大的云服务商亚马逊旗下的AWS早在2013年就开始秘密研发其DPU系统,并从2017年就大规模部署了Nitro DPU系列。借助这个自研产品,他们把网络、存储、安全和监控等功能分解并转移到专用的芯片和软件上,从而将服务器上几乎所有的资源都提供给服务实例,降低了数据中心总体的运行成本。

其后国内各大云服务商,包括阿里云、腾讯云、百度云、火山引擎都在跟随AWS部署DPU来提升云服务算力资源的效率,降低运营成本。

DPU之所以其成为算网融合时代的“救世主”,是因为在数据中心环境中,DPU 可以帮助加速和优化多种网络处理任务,包括SRv6,实现更精细的网络流量管理、服务质量保障和安全策略实施,为基于 SRv6 的网络架构提供更好的性能和功能支持。

作为国内头部DPU企业,云豹智能之前跟中国移动、中国联通、工商银行、火山引擎(字节跳动)等行业头部企业合作,撰写过DPU各种不同应用场景的白皮书。现在,云豹智能携手中国电信天翼云打造《云网融合下智能算力网络应用发展白皮书》,为DPU的技术发展继续添砖加瓦。

白皮书指出,随着网络、算力需求的持续增加,DPU不仅需要高效率提供数据面的加速能力,还需要针对控制面的操作进行解耦和卸载。因此,DPU需要集成通用的多核处理器提供基础设施软件组件的卸载,以及可编程的网络处理引擎提供对网络数据处理的硬卸载能力和多种特定领域的数据面加速。

DPU在云计算应用中将扮演重要角色,是衔接算力(包括CPU+GPU)和网络两大领域的重要枢纽,也是应用驱动下出现的异构计算设计的必然结果和实践。DPU的体系架构解决了在云计算应用中CPU、GPU低效率或者不能完成的技术难点,在整体上提升了运行效率的同时也有效降低了云计算基础设施的投资和运维成本。

这个体系架构还真正实现了对计算资源、网络资源、存储资源的统一运维和管理,并且可以轻松地支持网络、存储和管控的卸载;支持裸金属应用模式下的宕机迁移;支持虚拟机应用模式下的虚拟机热迁移。

总而言之,从技术上看,DPU拥有灵活可编程、统一资源管控、算力卸载、低时延网络和安全可信等特性。具体到智能算力网络支撑方面,DPU不但能够支持SRv6数据面的卸载,也能够支持SRv6控制面板的卸载,还能支持P4的数据面和控制面编程。

得益于这些领先特点,从云豹 DPU 芯片在SRv6 应用实测数据看来,相比传统基于通用CPU技术方案,在处理能力方面有着显著提升,其性能提升超过百倍,能显著提升云计算和网络融合的效率。

这足以体现DPU在推动我国数字经济发展过程中具有重要意义。云豹智能和中国电信等一众本土厂商的相向而行,也必将成为DPU走向算力网络中心的重要推动者。

‍来源 | 晶报APP‍

记者:刘羚

编辑:阎建伟

深圳市南山区深南大道9968号汉京金融中心1101室
邮箱:info@jaguarmicro.com
电话:+86-755-83519759
深圳上海北京南京西安成都香港
© 2024 云豹智能 | 粤ICP备2021055724号