转自与非网eefocus,作者张慧娟
继“南水北调”、“西电东送”、“西气东输”等工程之后,“东数西算”工程近日全面启动,全国一体化大数据中心体系完成总体布局设计。消息一出,大数据、云计算、算力建设等细分领域在资本市场应声上涨,半导体产业指数上涨超过6%。
通俗理解,“东数西算”就是“把东部的数据传输到西部进行计算和处理”,这可以说是国家战略的必然选择,也是促进东西部发展协同联动的必由之路。根据中国信通院《中国算力发展指数白皮书》,目前我国数据中心的上架率并不均衡,数据中心平均利用率仅为55%。而导致利用率较低的直接因素是需求不均衡:算力需求大户互联网企业主要集中在北上广深,因此东部省市对算力的需求普遍较高,而西部地区的产业结构对算力需求偏弱。这也意味着,“东数西算”所涉及到的数据环节,不论是传输、处理,还是计算、分析等,都将对相关芯片产生大量需求。
在数据中心、服务器、边缘计算等领域奋力成长的国产芯片,在“东数西算”布局中能分得几杯羹?他们如何看待和理解“东数西算”所带来的机会和挑战?<与非网>独家对话龙芯中科副总裁杜安利、云豹智能CEO萧启阳博士、鲲云科技CEO牛昕宇博士,他们分别从CPU、DPU、AI计算芯片的角度,分享了各自的观点和洞察。(上期:算力大厂解析掘金之道)
东数西算
是否会拉动国产芯片发展?
图源 | Engadget
答案是显而易见的,会。但是,会分进程、分层次、分类型惠及,并且有其发展前提。
龙芯中科杜安利谈到,“东数西算”将要构建的数据中心和周边设施的建设,会成为重要的新型基础设施。而底层算力对自主CPU的需求是巨大的,这关系到我国经济高质量发展、各行业数字化转型的格局。要实现这些诉求,她认为至少要满足三个要素:一是要自主化,这是经济高质量发展和数据安全的基座;二是要智能化,当前数据挖掘、分析、处理、建模等软件技术已经日趋成熟,可以对不同场景的数据提供更为智能化的服务;三是要有安全保障,数据流通会产生价值,通过国产密码、区块链等安全技术与自主处理器的结合,保障数据现场和数据流通过程中的安全至关重要。
云豹智能萧启阳认为“东数西算”是DPU发展很好的机遇。“东数西算”一方面要实现节能环保,另一方面也对数据中心提出了更大的挑战,因为网络流量更大,需要处理的数据更多,需要存储的数据更多,数据更需要保护,对网络、存储和算力等资源需要更有效地调度。而这些正是DPU要解决的问题,国产DPU的发展可以大大提升数据中心的效率。
鲲云科技牛昕宇从电力时代向算力时代的转型切入,谈到了底层算力平台未来的发展方向。他表示,算力与AI的关系与电力与电器的关系类似,算力芯片作为底层的基础设施,是未来智能社会的基础设施。事实上,我们对算力和电力的需求其实是一样的:希望它能支持所有设备运行、成本低廉、供给充足,这就需要不断提升算力的通用性,不断降低使用成本。
进一步来看,数据处理量的提升势必会反向刺激数据的处理速度,新建多个数据中心,带来的是对芯片性能的更高要求,也必将推动国产芯片的进程。
一体化算力布局中
边缘计算的价值?
图源 | salientglobaltech.com
“东数西算”涉及东部、西部地区之间的算力调度能力、云边端协同能力,来满足高频实时、灵活调度的数据交互和业务交互。在这一规划中,边缘计算有哪些新的内涵?国产芯片又能提供哪些新动能?
正如“东数西算”规划中数据中心由东向西梯次所布局的,对网络要求不高的业务,可率先向西部转移;一些对网络要求较高的业务,比如工业互联网、灾害预警、远程医疗、人工智能推理等,可在东部枢纽布局。鲲云科技牛昕宇谈到,基于这样的规划,将会出现针对不同落地场景需求的专项算力解决方案。它们对边缘算力平台和方案的部署需求不尽相同,不论是算力、时延、接口、网络传输等等,但是,在算力层面,最终都会回到算力性价比、软件易用性和通用性。牛昕宇补充,契合这些趋势,算力厂商未来应该配合数据中心、算力中心,把产品方案做到更通用、算力性价比更强,提供更高的软件易用性,便于实现端到端的自动化部署。
龙芯中科杜安利认为,边缘计算是大数据的基础,即使在顶端建设了海量的云平台,但是如果没有边缘侧的现场数据采集、分析、处理、传输,大数据中心只会是空壳。
未来,边缘计算需要处理的数据量会越来越多,算力要求也将逐步提高。边缘侧的设备也不再拘泥于简单的数据采集,还会有大量的边缘网关、边缘AI、边缘可扩展型服务器等多种设备,协助前端数据处理,将处理后的数据传输给云端,有效减轻云端的数据压力,用户也可根据自己的实际业务,灵活就近选择边缘计算节点或中心云计算节点。
国产芯片的突破路径
数据中心所需的算力芯片和处理器方面,国际大厂仍是重要的提供方。国产芯片一方面需要更多的时间积淀和迭代,另一方面,边缘计算是当前一个千载难逢的发展契机。在这个巨大的蓝海市场中,国产芯片如何找到适合的路径,进一步寻求突破?
龙芯中科杜安利表示,边缘计算场景中,用量大、现场设备多,不乏大量户外设备,对CPU性能、功耗有更高要求。这类场景中大致有两条路线:一是高性能通用处理器做专用设备,例如使用龙芯全新自主指令架构的新一代高性能处理器3A/C5000系列,为场景提供专用算力;二是SoC高度集成化、低功耗化的发展路径,如龙芯1号、2号系列的SoC芯片,这类芯片将丰富的I/O接口集成在一颗芯片内部,通过自主化设计降低功耗的同时,实现了中低端边缘计算设备的户外现场应用,可大量部署在工业现场。此外,这些方案也可以叠加AI芯片、FPGA等,针对某类场景提供定制化算法,提升边缘计算的能力。
云豹智能萧启阳认为,边缘计算要充分考虑性能功耗比和性价比,这对边缘计算芯片的通用性是个挑战。而针对某一个领域或应用,定义、实现一个性能功耗比高、性价比高的芯片是目前主流的方法,因此架构上要进行云边端一体设计,明确端侧要解决的问题,此外,建设丰富的生态对于边缘计算的实现也非常重要。
鲲云科技牛昕宇则从底层架构的角度分析了当前国产芯片的突围方向。他认为,如果沿用现有的指令集架构,海外巨头有先发优势,在架构设计上难以获得绝对性的性能优势,仍需要不断迭代制程工艺来提升性能,而这将面临摩尔定律放缓的挑战和供应链安全的问题。因此通过底层架构创新来实现计算效率的数量级提升,是国产AI芯片的一个突破口,在他看来,这也是一条可持续、性能更高、成本更低的技术路径。以鲲云为例,目前采用的是定制数据流架构CAISA3.0,在底层架构效率上实现了10倍提升,已经在现有更低的制程工艺的基础上,达到同样的算力性能。
“目前,国内AI芯片厂商已经具备了相当的芯片设计能力,但是,国内芯片产能问题仍未解决”,牛昕宇表示,“架构创新的缺失/产能问题如果不解决,国内厂商在东数西算项目中的参与程度可能因此而受到影响。”
算力池化是未来方向
图源 | datamation.com
芯片的发展已经进行到了多种形态的新阶段,未来的计算将更多以池化的方式来实现,这也将是芯片在“东数西算”规划中一个很大的内涵。通过将算力释放、形成池化,用户就不必再纠结于采用何种计算形态或计算设备,只要选择对应的计算力即可。
在日前召开的两会上,这个发展方向也得到了一定的倡导。全国人大代表、宁夏回族自治区工信厅党组副书记、副厅长万新恒谈到,“东数西算”之后便是“芯云融合”,他以DPU为例说道,这类解决方案最直接的作用就是作为CPU的卸载引擎,接管未来的网络虚拟化、硬件资源池化等基础设施层服务, 从而释放宝贵的CPU资源来运行上层应用,实现以数据为中心的业务和基础设施操作的分离,进而降低网络数据对数据中心的依赖,缓解东部应用端对网络数据的处理需求,让数据中心真正回归数据计算,解决供需失衡问题。
“算力的池化非常重要,因为池化可以让算力更高效地被利用”,云豹智能萧启阳谈到,“一直以来,算力的池化是一个挑战,而DPU现在可以为算力池化提供基础。将DPU作为数据中心基础设施的核心,可以实现基础设施的池化,包括通用算力CPU的池化、内存的池化、GPU的池化、AI算力的池化、FPGA的池化等。”
哪些痛点问题仍需解决?
从我国当前的算力布局和建设情况来看,还有一些需要着力改善和解决的问题。“东数西算”的战略考量也在于此,真正推动算力资源的有效利用,解决算力供需的失衡。
在龙芯中科杜安利看来,当前存在三个突出问题:一是供需匹配未打通。一方面蓬勃建设数据中心,寻找用户;另一方面用户找不到适合自身需求的机柜,两方面存在需求信息不通畅的情况。二是要解决应用场景迁入算力枢纽的问题,没有场景迁入,将是一潭死水。例如西部的算力枢纽,更需要应用场景牵引落地,不论是能源、交通等,只有这些场景的数据引入算力枢纽,才真正有落地应用的意义。三是要重视数据安全,因为这关系到我国多个行业的资源安全,如果没有行之有效的安全保障,将会是一场灾难。此外,还存在运力问题、能耗过高等问题,还需要边走边解决。
鲲云科技牛昕宇从AI芯片的角度谈到,AI芯片的核心是实现AI算法的计算加速,从软件/算法和硬件两个角度同时优化,才能实现性能的全局最优,这就需要芯片厂商提升自身的软硬件协同能力。此外,他认为要重视产业链上下游的共同推进,鲲云目前已经和浪潮联合推出了数据流AI服务器,面向边缘侧、数据中心提供高性能的AI计算加速,在算力资源的协同利用上,提供更多样化的AI部署选择。
写在最后
“东数西算”工程全面启动,将为国产芯片带来更多发展机遇。例如当前在每个算力枢纽,都规划设立了1至2个数据中心集群,这无疑会提供更多算力平台市场,带动部署更多的自主创新基础软硬件,为国产芯片发展提供良好的发展机会。
不过,“东数西算”是一个庞大的工程,涉及到多个层面的产业建设,产业链既包括传统的土建工程,还涉及IT设备制造、信息通信、基础软件、绿色能源供给等,涵盖芯片、整机、算法、应用、数据模型等诸多技术环节。
由于产业链条长、覆盖门类广,健康有序的发展需要产业链上下游企业共同协作推进,场景落地才会有效果;此外,自主创新基础软硬件的生态问题仍需要继续重视,真正打破“卡脖子”局面,促进国产芯片更大规模的应用和发展。