设为首页加入收藏
群晖首页图片
网站标志
新闻详情
 
当前位置
新闻搜索
 
 
Bitfusion 性能评估 四川 成都 IT解决方案商
作者:管理员    发布于:2020-09-27 15:17:16    文字:【】【】【
Bitfusion 的工作原理决定了它有一些额外的资源消耗,主要是客户端和服务器之间的网络传输开销。这些额外的开销对于GPU的利用率会有一些怎样的损耗呢?我们通过测试来评估一下。

我们把 vSphere 虚拟化平台上直接使用 GPU (直通模式) 作为基准,看看使用 Bitfusion 的结果跟它之间有多大的差距。至于利用 GPU 进行机器学习在虚机化平台和裸金属平台之间有多大的性能差异,VMware 的研究团队已经做过这方面的测试,基本上没有性能差异;由于 vSphere 的优化功能,在某些测试场景中虚拟化环境下的性能甚至要比裸机环境还要好一些。

我们用三台服务器搭建了一个测试环境,一台主机上安装了 GPU,并在这台主机上运行 Btifusion 服务器虚机;在另一台主机的虚机中运行 TensorFlow 机器学习框架性能测试套件 tf_cnn_benchmarks,通过网络来访问 Bitfusion 服务器提供的 GPU 计算资源(测试环境的具体硬件配置列在本文最后的附录中)。我们主要是针对3种不同的网络配置来进行测试,考量不同的网络条件对机器学习的性能有多大影响,从而为用户在实际环境中选择网络配置提供一个参考。三种测试场景如下:

1、直接采用 10Gb/s 网络,使用虚拟网卡 VMXNET3;

2、采用 100Gb/s 的聚合以太网 RDMA 方案 RoCE,直通方式访问;

3、采用 100Gb/s 的聚合以太网 RDMA 方案 RoCE,通过虚拟化方式 PVRDMA 访问。

什么是 RDMA?

RDMA 的全称是 Remote Direct Memory Access (远程内存直接访问),它是一种性能加速技术,通过网卡来直接访问另一台服务器上的内存,而不需要 CPU 的介入。服务器间传统的数据交换需要通过 CPU 从内存中读取数据,然后再通过网络协议堆栈交由网卡把数据传送到到另一台服务器;另一台服务器则执行相反的操作,也需要经过网卡转交给 CPU 再写入到内存中,这中间会消耗大量的 CPU 资源。RDMA 则通过一整套的软硬件协议,把这些工作完全交给网卡来实现,这样可以大大提高跨服务器数据访问的效率,并且节省大量的 CPU 资源。现在,一些大型软件如数据库系统等纷纷增加了对 RDMA 的支持,以获得更高的系统性能。

目前主要有以下三种 RDMA 技术方案:

InfiniBand (IB) – 需要 InfiniBand 专用的网卡和交换机,性能最高,也最昂贵。

RDMA Over Converged Ethernet (RoCE) – 利用现有的以太网和交换机来支持 RDMA,只需要网卡支持 RoCE 就行了。

Internet Wide Area RDMA Protocol (iWARP) – 在 TCP 网络上支持 RDMA,也可以利用现有的网络设备,只是网卡要求特殊,要求支持 iWARP 。

我们测试中用到的方案为 RoCE,这是由主机上的网卡 HCA (Host Channel Adapter) 来实现的。虚机使用 HCA 提供的 RDMA 有两种方式,一种就是直通方式,虚机独占使用 HCA,这就是我们第2种测试场景中的网络配置;另一种是虚拟化方式 PVRDMA (Paravirtual RDMA),是 VMware 对于 RDMA 技术的半虚拟化实现,vSphere 会在虚机中提供 PVRDMA 虚拟网卡,再通过 VMkernel 中的 PVRDMA 堆栈来访问 HCA,这种方式可以让多个虚机共享 HCA 设备,这是我们第3种测试场景中的网络配置。


PVRDMA 架构

在测试中,我们选择了两种非常代表性的深度学习模型 Incepton3 (Inception Net V3) 和 resnet50 (Residual Neural Net 50 [50层残差神经网络]) 来对 ImageNet 进行图像分类学习。测试结果如下面的图表所示,我们把基准性能 (直通模式) 的性能定义为1,每次测试的性能跟基准的比值显示在图表中,Performance Ratio的值越接近于1就表示使用 Bifusion 所导致的性能损耗越小,值为1表示完全没有性能损耗。

很显然,这是三个场景中性能损耗最大的,这个场景中的网速最慢,也没有利 RDMA 方案来分担 CPU 的传输负担。10Gb/s 是最普通的数据中心网络配置,这是利用普通网络可以达到的性能结果。

这种场景因为采用了虚拟化的 RDMA 方式,性能跟直通方式相比有一定下降。这是实际应用最可能的一种场景,一般我们都会有多个虚机来共享同一物理网卡所提供的 RDMA 功能,PVRDMA 是一个必然的选择。

Bitfusion 由于采用了客户机和服务器模式来共享 GPU,CUDA 调用和相关的数据都需要通过网络来进行传输,相比于在本机上使用 GPU 会有一定的性能损耗。从测试结果我们可以看到 Bitfusion 对于 GPU 的性能损耗最大偏差也不到 20%,相比于 Bitfusion 方案所带来的共享便利和 GPU 利用率的提升是完全可以接受的。

需要注意的是 RDMA 的直通模式虽然性能最优,但是它基本上是让虚机饶过了 hypervisor 来直接使用 RDMA 设备,在这种情况下虚机无法用到 vSphere 的一些核心功能,包括 vMotion、动态添加和删除虚拟设备、虚机快像、DRS (Distributed Resource Scheduler) 和高可用 HA 功能。PVRDMA 是 VMware 对于 RDMA 技术的半虚拟化实现,它不存在直通模式的这些局限,完全可以用到 vSphere 的所有功能,并且可以实现多个虚机对于 RDMA 设备的共享。

另外我们也可以看到 Bitfusion 方案的性能损耗也取决于深度学习模型和 batch size 的大小,大的 batch size 有助于降低性能损耗,这是值得我们在真实环境中配置 Bitfusion 平台时借鉴的。

测试环境













威睿信息技术(中国)有限公司公司 全线vmware 产品:

产品
SDDC 平台
Cloud Foundation
数据中心和云计算基础架构
vSphere
vSphere Integrated Containers

更多信息 >
网络连接与安全性
NSX 数据中心
NSX Cloud
NSX SD-WAN by VeloCloud
NSX Hybrid Connect
AppDefense
vRealize Network Insight
存储与可用性
Site Recovery Manager
VMware Site Recovery
Virtual Volumes
超融合基础架构
vSAN
vSAN ReadyNode
Dell EMC VxRail
云计算管理平台
CloudHealth
vRealize Suite
vRealize Automation
vRealize Business for Cloud
vRealize Operations
vCloud Suite
VMware Integrated OpenStack
更多信息 >
网络功能虚拟化
vCloud NFV
VMware Integrated OpenStack Carrier Edition
物联网 (IoT)
Pulse IoT Center
数字化工作空间
Workspace ONE
由 AirWatch 支持的 Workspace ONE UEM
桌面和应用虚拟化
Horizon 7
Horizon Apps
Horizon Cloud
App Volumes
更多信息 >
个人桌面
Horizon FLEX
Fusion for Mac
Workstation Pro
Workstation Player
免费产品
vSphere Hypervisor
vCenter Converter
更多信息 >
VMware vSOM 6.5 Enterprise PlusVMware vSphere 6.5 Enterprise PlusVMware vSphere 6.5 StandardVMware vSphere 6.0 Enterprise PlusVMware vSphere 6.0 EnterpriseVMware vSphere 6.0 StandardVMware vSphere 5.5 Enterprise PlusVMware vSphere 5.5 EnterpriseVMware vSphere 5.5 StandardVMware vSphere 5 Enterprise PlusVMware vSphere 5 EnterpriseVMware vSphere 5 Standard Horizon VMware Horizon 7.1 Standard
VMware Horizon 7.1 StandardVMware Horizon 7.1 EnterpriseVMware Horizon 7.1 AdvancedVMware Horizon View 7 StandardVMware Horizon 7 AdvancedVMware Horizon 7 EnterpriseVMware Horizon View 6.0 StandardVMware Horizon AdvancedVMware Horizon EnterpriseVMware Horizon View 5.3VMware Horizon View 5.2VMware Horizon Mirage 4VMware Horizon WorkspaceVMware Horizon Suite
vRealize Operations 6.7、vRealize Automation 7.4、vRealize Business for Cloud 7.4、vRealize Orchestrator 7.4、vRealize Log Insight 4.6与vRealize Suite Lifecycle Manager 1.2
Heptio Kubernetes
vshpere Vsan 超融合 HCI VxRail 分存式存储 SDS 软件定义存储 横向扩展存储
vmware 桌面虚拟化 终端计算 EUC view horizon
VMware NSX SD-WAN velocloud 、 Virtual NSX SD-WAN Edge
VMware NSX Data Center
Vmware fusion pro ,esd ( Fus11-pro-cny-c)
vmware workstion 15 pro for linus and windows ,esd . (ws15-pro-cny-c )
浪潮 oem vmware 联想oem vmware DELL戴尔oem vmware
中科睿光 虚拟化

vmware 官网
vmware 成都分公司 vmware 四川分公司

vmware 四川总代理
vmware premier solution provider
vmware enterpise solution provider
vmware 解决方案 合作伙伴 成都vmware 授权代理商 四川vmware授权经销商
全线产品在中国境内的分销 VMware 总代理
VMware 中国合作伙伴 – VMware 核心级和企业级合作伙伴 专业级合作伙伴

成都科汇科技有限公司
vmware 虚拟化 部署 实施 数据迁移 故障解决
vmware 威睿 企业级代理商
vmware 威睿 专业级 四川 成都 技术服务中心
vmware 威睿 核心级 数据恢复服务中心
vmware 威睿 金牌代理 虚机备份服务中心
vmware 威睿虚拟化安全服务中心

服务区域:

四川vmware: 德阳vmware 绵阳vmware ,攀枝花vmware,西昌vmware,雅安vmware,内江vmware,资阳vmware,南充vmware,眉山vmware,乐山vmware,自贡vmware 泸州vmware 广元vmware 遂宁vmware 宜宾vmware 广安vmware 达州vmware 雅安vmware 巴中vmware 资阳vmware 攀枝花vmware 凉山彝族自治州vmware 甘孜藏族自治州vmware 阿坝藏族羌族自治州vmware

价格好 服务优
————————————————

以上有兴趣的请联系官方渠道

成都科汇科技有限公司(IT解决方案商)

地址:四川省成都市武侯区人民南路四段一号时代数码大厦18楼A5

电话咨询热线:400-028-1235

24小时咨询热线:180 8195 0517(微信同号)

本文章为转发的公开信息,如有相关侵权,敬请联系上述联系方式即可删除。

脚注备案信息
群晖技术群