英伟达:DPU使数据中心成为新的计算单元

阅读时间 : 7 分钟


众所周知,现在AI技术的普及和数据量越来越大,模型也变得越来越大。传统的冯·诺依曼架构已经遇到了瓶颈,近几年以数据为中心的架构不断被提出,DPU的出现则为以数据为中心的计算架构也提供了非常创新的思路。尤其是去年10月,NVIDIA将基于Mellanox BlueField的SmartNIC卡命名为“DPU”,DPU这一概念深入人心。那么DPU是如何继续提升算力时代下的数据中心性能的,这点我们将透过英伟达的DPU产品窥得一二。

以数据为中心的计算架构成大势所趋


首先,我们该怎么理解以数据为中心的新的架构?关于这点NVIDIA网络事业部的宋庆春作了很直观的解释,他表示,网络计算以数据为中心的新的架构,意味着数据在哪里,计算就在那里;当数据在GPU上,计算就在GPU上;当数据在CPU上,计算就在CPU上;当数据在网络中传输的时候,计算就在网络中。以前以CPU为中心的架构典型通信延时为30-40 微妙,而以数据中心的新架构典型通信延时为3-4微妙。

之前在以CPU为主体的系统里,所有的操作都用CPU来做。以OVS操作为例,当我们将OVS在CPU上,会消耗很多CPU的核,运行OVS的效率还非常低;但如果把OVS操作放在DPU上则可以把这个包转发率大幅度提升。更关键的是,通过把OVS放到了DPU上运行,这样实现了OVS操作和CPU业务之间的隔离,这样就实现了业务和基础设施操作的分离,大幅降低了长尾延时。


由此看来,DPU也成为在以数据为中心的计算架构里一个非常核心的技术。

不断进阶的英伟达DPU


去年英伟达发布了第一款DPU产品BlueField-2,今年的GTC上又发布了BlueField-3,BlueField-3会在明年上半年推向市场。而从其路线图上也可以看出,其DPU产品的性能实现了很大的跨越。从BlueField-2到BlueField-3,它的整形计算能力提升了5倍。BlueField-2 目前为软件定义的网络安全和存储卸载了相当于125 个CPU核的工作量,而BlueField-3则能达到300个CPU核。宋庆春介绍到,到了BlueField-4以后,英伟达把GPU集成到DPU里来,DPU就真正成为一个完整的数据中心单元。


在此,我们重点看下BlueField-3,BlueField-3会是业界第一款400G速度的DPU。在BlueField-3上,英伟达会出400G的Ethernet或者InfiniBand的接口。值得一提的是,在BlueField-3上不管是用IPSec还是用TLS,加解密的速度都可以达到400G的全线速。如果在之前用CPU来做IPSec或者IOP/s的时候,即使使用100G、200G的网络,它的性能可能只能跑到20-30G或30-40G,而且还把所有的CPU资源都消耗光了,这样也会造成安全漏洞。


BlueField-3集成16个ARM CPU的核,它有更强大的处理器。从它整个Offload功能来看,一个BlueField-3的DPU实现的offload功能可以相当于300个X86 CPU的核。此外,还能在不消耗主机CPU的情况下,在存储上实现18million的IOP/s。现在存储如果能达到1million的IOP/s已经是非常高的性能。

BlueField-3主要是针对安全、网络、存储、AI/HPC业务来进行加速。主要覆盖6个业务场景:云、安全、HPC和AI、电信、存储以及多媒体。


在云场景下,去年NVIDIA 和 VMWARE共创了混合云新架构Monterey project,在新的可组合、可分解的基础设施上高效地运行现代工作负载。这也是第一次VMWare把他的资源开放给了他的合作伙伴,来共同开发基于VMWare企业级的云解决方案。

BLUEFIELD的作用还有好多,它让云原生超级计算机成为现实。DPU能赋能5G,DPU还可执行通信框架,实现无阻塞通信。AI和DPU强强合作下,能共筑网络安全墙。

值得一提的是,英伟达针对DPU发布了DOCA,DOCA有什么作用呢?DOCA之于DPU就好比CUDA对于GPU的作用。DOCA里面有各种各样的伟大技术:深度包检测、安全引导、TLS加密卸载、正则表达式加速,以及一个非常令人兴奋的能力,一个基于硬件的实时时钟,可以用于同步数据中心、5G和视频广播。DOCA为DPU开发人员提供一站式服务,现在其第一版DOCA1.0已经正式发布了,用户已经可以从官网下载使用。


云计算厂商与DPU擦出怎样的火花


英伟达的DPU 及DOCA可以为网络、安全、存储、HPC、机器学习、电信领域以及多媒体等多个应用领域的卸载。那么落实到实际厂商上,英伟达的DPU&DOCA究竟能为企业做什么?关于此,我们来看下云计算厂商提供商Ucloud基于英伟达的DOCA生态的技术实践。

UCloud资深技术专家马彦青表示,对于云计算供应商,主要关心的是云计算数据中心的内容,主要包括使用ASAP2做网络的卸载;第二是使用SNAP/Virtio BLK SNAP来做存储的卸载;第三是使用ARM处理器来做上面服务的编排管理;第四是可以利用它的DPI深度包检测功能做正则表达式的算法卸载;第五是可以做安全加解密的卸载,包括TLS、SSL以及IPSec这些算法;第五可以通过InifiniBand网络以及RDMA做数据的加速传输。

而DPU&DOCA简化了UCloud裸金属的网络架构。原来的VPC网关架构,需要使用很多的网关服务器集群来进行管理,而这些网关集群的成本也更高,而且当跨网关的时候会存在带宽的瓶颈。而采用英伟达的DPU之后,就可以将VPC管理整个集成到DPU内部,OVS包转发以及GRE封装都可以通过ASIC硬件来实现。UCloud原来10G网卡升级到25G,新版可以达到50G。DPU的采用能统一裸金属与快杰主机网络VPC,大大提高连接效率。


而在存储方面,DPU&DOCA可以重构UCLoud裸金属的存储架构。过去传统的方式是用本地盘来存储,这样就会有坏盘维护的烦恼,而且机型数量众多,本地盘数据丢失后数据恢复也很困难。而基于DPU NVMe SNAP技术后,系统盘和数据盘都采用RSSD云盘,实现了计算和存储的解耦。这样的好处是可以实现免装机、分钟级交付,减少了机型,磁盘也能按需使用,快速故障迁移,使用了后端UDisk分布式存储集群之后,数据端是个三副本,安全可靠。


DPU&DOCA还可以提升UCloud数据中心安全。在数据包检测方面,相比软件的Hyperscan BlueField 2有3.5倍的提速,在加解密方面,DPU卡也可以对SSL、TLS可以进行加解密。还能实现IPSec的硬件的卸载,释放CPU的算力。


马彦青讲到,用一张卡来实现虚拟化和裸金属架构的统一是他们三年前在设计裸金属架构所树立的目标。而现在,DPU完全可以做到。这种架构的统一除了Hypervisor的区别,其他都是一致的。他们共用相同的存储设备、网络设备、计算机型、软件等等。


除了上述的,UCloud还基于InfiniBand网络的DPU,探索如何加速人工智能,高性能计算。目前UCloud正基于CX6标卡来做InfiniBand网络实验。而事实上,像卸载网络或卸载存储一样,DPU卡也可以卸载原先运行在物理机上的服务,比如HPC/AI的通讯框架、文件系统客户端以及管理隔离监控等。

结语


数据中心的变革已经来临,DPU的出现,一定会掀起一波数据中心的变革!


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2711内容,欢迎关注。

推荐阅读


千亿卓胜微,能否再创奇迹?

巨头们开辟DPU“芯”战场

SiC的绝佳风口


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|美国|华为|苹果

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

分享
没有投票
版权
原创度
8
可信度
8
分析深度
8
观点独特性
8
价值
8
8

添加新评论