转自 科技最前线 2024-7-24
在人工智能席卷全球的浪潮下,我们正在跨入一个新算力时代。
国家工信部等“六部门”在2023年10月联合印发的《算力基础设施高质量发展行动计划》(以下简称“计划”)中指出,要围绕计算力、运载力、存储力以及应用赋能四个方面高质量发展,并提出2025年的发展量化指标。“计划”还强调,将针对智能计算、超级计算和边缘计算等场景,开展数据处理器(DPU)、无损网络等技术升级与试点应用,实现算力中心网络高性能传输。
由此可见,未来需要的不仅仅是单一的算力中心,而是一个高效的面向广泛业务场景的算力集群。这就要求必须要打造一个将算力和网络融合在一起(即算网融合)的基础设施。这当中,DPU将扮演不可或缺的重要角色。
01
算网融合,必然趋势
正如中国电信和云豹智能等编撰的《云网融合下智能算力网络应用发展白皮书》(以下简称“白皮书”)所述,算力网络是一种架构在IP网之上,以算力资源调度和服务为特征的新型网络技术或网络形态。相关算力网络旨在突破诸如数据中心、超算中心、云计算、边缘计算等“孤岛”状态下的计算能力限制,构建算网云一体的新型智能、高效、按需的算力服务体系。
随着AI大模型训练和推理的复杂性不断增加,训练这些模型所需的计算资源也随之增加,同时需要的训练数据集也非常庞大。而在实时推理场景下,部署在实时环境中的AI应用也要求快速、低延迟的推理能力。为了满足这些实时性要求,同样需要强大的计算资源来执行模型推理。因此,如何提供高效、便捷的智能算力资源将成为算力网络发展的重要落脚点。
作为算力网络的提供者,电信运营商承担着至关重要的责任,为了能在瞬息万变的电信市场中保持领先优势,他们需要在这个算力需求大增的时代一边增强用户体验,一边控制成本。但是,一方面,用户对于网络速度、稳定性和低时延的要求日益提高;另一方面,指数级的流量增长对现有基础设施造成巨大压力,导致维护和升级成本急剧上升;此外,技术的快速更新换代也给电信运营商带来挑战。不断涌现的新技术需要运营商具备强大的研发和应用能力;同时,不同地区和用户群体的需求差异较大,使得网络规划和资源分配变得极为复杂。
为了应对这些挑战,支撑灵活多变的网络资源、算力资源和数据资源调配需求,电信运营商正在积极引入网络虚拟化(NFV)、SRv6等先进技术,实现网络资源的灵活调配和高效利用,建设和发展智能算力网络,提高网络的承载能力和服务质量,从而在满足用户对高速、稳定网络需求的同时,有效控制成本。
针对不同的终端应用,给智能算力网络提出了不同的需求。
“网络边缘区域需要低时延,高算力特性;网络传输区域需要高带宽,低时延特性;核心网络需要高数据吞吐、巨量通用CPU算力和高并行GPU算力的特点。”白皮书举例说。另外,在不同的网络分层结构中,云网需要面对复杂多变的应用场景,现存的网络中包含数据中心、超算中心、边缘云等“孤岛”网络,各自为战,不能有效地最大化算力资源的利用率。
这时候,SRv6网络协议就能发挥重要的作用。
02
SRv6,势在必行
SRv6,是Segment Routing IPv6的缩写,也就是基于IPv6转发平面的段路由。简单来讲即SR(Segment Routing)+IPv6,是新一代IP承载协议。其采用现有的IPv6转发技术,通过灵活的IPv6扩展头,实现网络可编程。
无论是面对AI还是电信NFV网络功能,都面临跨网络、跨云的云网融合需求。为此,智能算力网络都逐渐开始采用硬件加速和SRv6技术作为智能算力网络建设的底层技术。
作为新一代IP承载协议,SRv6采用现有的IPv6转发技术,通过灵活的IPv6扩展头,可实现网络可编程。又因为简化了网络协议类型,使得SRv6具有良好的扩展性和可编程性,可满足更多新业务的多样化需求,提供高可靠性,在云业务中有良好的应用前景。从应用上来看,SRv6可以被视为对传统的基于 MPLS(多协议标签交换)的流量工程和Segment Routing 技术的升级和扩展。它利用了IPv6地址的灵活性和可编程性,提供了更强大的网络功能和灵活性。因此,在智能算力网络建设的进程中,SRv6 正逐渐展现出愈发关键的作用。
使用基于IPv6的分段路由具备以下四大优势:
第一、可减少网络中实施的协议数量,从而降低运营支出(OPEX);
第二、分段路由可原生支持网络可编程性,不但可以优化分布式计算场景下的网络性能,也可以无缝支持 NFV 环境;
第三、SRv6 同时支持 SDN、服务链和隧道,可简化 NFV 实施;
第四、SRv6基于源路由技术,可以在不具备SRv6功能的设备和网络环境上进行增量的SRv6部署,实现对现有网络设备环境的无冲击柔性扩展升级,逐步实现云网的有序融合。
然而,传统支持SRv6的网关在数据面和管控面的实现方案主要依赖通用CPU以软件形式实现,虽然这能够快速打通业务功能和逻辑,但却需要额外消耗CPU算力资源。因此,如何设计和利用高性能芯片的硬件加速卸载能力,以提供有效的数据吞吐能力,成为提高智能算力网络功能和性能的重要因素。
随着算力网络的高速发展,这种挑战日益严峻。
首先,算力网络从概念到实际部署验证在近年来也逐步取得发展,与算力网络相关的标准和规范亦都在积极推进中,但是面对快速迭代的技术演进,受困于摩尔定律逐渐失效的CPU就显得有些滞后,但数据的增长步伐依然没有放缓。
其次,随着数据中心业务的发展,云计算技术逐渐演进,不同的虚拟化技术和资源形态被提出。在云计算资源的管理上,无论从“虚拟机”、“裸金属”还是“容器”的角度出发,传统的依托CPU作为中心算力的管控系统都面临挑战。为了满足用户灵活动态的算力服务需求、降低数据中心的建设运维难度,需要统一的资源管控技术来管理计算资源。
第三,在云计算发展过程中,为了满足不同业务对存储功能的需求,存储技术也在不断地完善和加速演进中,存储协议和相应的文件系统变得越来越复杂。随着集群规模的增大,服务器上存储IO负载负担也越来越重。这就让CPU算力资源遭受巨大瓶颈,因为在传统存储技术实现中,针对存储协议处理、存储数据IO操作都是基于CPU的通用算力资源来完成。
“在数据中心内部,由于长期以来数据转发工作都依赖于节点上的CPU,其性能受生产工艺的物理极限限制,导致其性能提升远落后于网络带宽的发展。”白皮书中强调。
于是,DPU横空出世,成为了新的“救世主”。
03
DPU,走向台前
DPU并不是什么新概念。
全球最大的云服务商亚马逊旗下的AWS早在2013年就开始秘密研发其DPU系统,并从2017年就大规模部署了Nitro DPU系列。借助这个自研产品,他们把网络、存储、安全和监控等功能分解并转移到专用的芯片和软件上,从而将服务器上几乎所有的资源都提供给服务实例,降低了数据中心总体的运行成本。
其后国内各大云服务商,包括阿里云、腾讯云、百度云、火山引擎都在跟随AWS部署DPU来提升云服务算力资源的效率,降低运营成本。
DPU之所以其成为算网融合时代的“救世主”,是因为在数据中心环境中,DPU 可以帮助加速和优化多种网络处理任务,包括SRv6,实现更精细的网络流量管理、服务质量保障和安全策略实施,为基于 SRv6 的网络架构提供更好的性能和功能支持。
作为国内头部DPU企业,云豹智能之前跟中国移动、中国联通、工商银行、火山引擎(字节跳动)等行业头部企业合作,撰写过DPU各种不同应用场景的白皮书。现在,云豹智能携手中国电信天翼云打造《云网融合下智能算力网络应用发展白皮书》,为DPU的技术发展继续添砖加瓦。
白皮书指出,随着网络、算力需求的持续增加,DPU不仅需要高效率提供数据面的加速能力,还需要针对控制面的操作进行解耦和卸载。因此,DPU需要集成通用的多核处理器提供基础设施软件组件的卸载,以及可编程的网络处理引擎提供对网络数据处理的硬卸载能力和多种特定领域的数据面加速。
DPU在云计算应用中将扮演重要角色,是衔接算力(包括CPU+GPU)和网络两大领域的重要枢纽,也是应用驱动下出现的异构计算设计的必然结果和实践。DPU的体系架构解决了在云计算应用中CPU、GPU低效率或者不能完成的技术难点,在整体上提升了运行效率的同时也有效降低了云计算基础设施的投资和运维成本。
这个体系架构还真正实现了对计算资源、网络资源、存储资源的统一运维和管理,并且可以轻松地支持网络、存储和管控的卸载;支持裸金属应用模式下的宕机迁移;支持虚拟机应用模式下的虚拟机热迁移。
总而言之,从技术上看,DPU拥有灵活可编程、统一资源管控、算力卸载、低时延网络和安全可信等特性。具体到智能算力网络支撑方面,DPU不但能够支持SRv6数据面的卸载,也能够支持SRv6控制面板的卸载,还能支持P4的数据面和控制面编程。
得益于这些领先特点,从云豹 DPU 芯片在SRv6 应用实测数据看来,相比传统基于通用CPU技术方案,在处理能力方面有着显著提升,其性能提升超过百倍,能显著提升云计算和网络融合的效率。
这足以体现DPU在推动我国数字经济发展过程中具有重要意义。云豹智能和中国电信等一众本土厂商的相向而行,也必将成为DPU走向算力网络中心的重要推动者。
点击阅读原文或扫描下方二维码可下载完整白皮书
提取码:6666