新着情報
8GPUサーバー(4th Gen Intel® Xeon® Scalable processors 2CPU)の紹介
前回も8GPUサーバーの紹介をしましたが、今回は4th Gen Intel® Xeon® Scalable processorsを2CPU搭載する8GPUサーバーを紹介します。CPUコア数は最大112、メモリスロット数は32で、128GB DIMMを搭載すると4TB実装可能です。M.2 SSDが2枚、2.5" NVMe SSDを8台、2.5" SATA SSDを8台実装可能です。ネットワークインターフェースは標準で2x 10GbE BaseT with Intel® X710-AT2が付属しています。もちろん専用のIPMI 2.0用1GbE BaseTのインターフェースもあります。シャーシの形状は4Uラックマウント型です。このサイズのサーバーをラックマウントする動画はこちらになります。
RTX4090 8GPUサーバーの紹介
GeForce RTX 4090はRTX A6000などと比較して、物理的サイズが非常に大きく、かつ消費電力も450Wと大きいため、RTX4090を8GPU搭載可能なサーバーの構築は困難と考えられますが、この記事では弊社が販売しているRTX4090を8GPU搭載可能な、AMD Epyc Genoa 2CPUのサーバーを紹介します。
Intel oneAPIをインストールしてIntel MPIを使う
IntelのMPIはFreeのOpenMPIなどに比べて高性能と言われてきました。しかし少し前まではIntel MPIは有償でそれなりに高額なので、OpenMPIとの性能差を気軽に確かめることはできませんでした。現在は無償でダウンローと可能なintel oneAPIの中にIntel MPIが含まれており、その性能を気軽に確かめることができます。このBlogではIntel oneAPIをインストールして、姫野ベンチのMPI版を使い、OpenMPIとの性能差を確認します。
RTX 6000 Ada 1, 2, 4 GPU vs RTX 4090 1, 2, 4 GPU vs A6000 1, 2, 4 GPU
RTX 6000 Adaを1, 2, 4, GPU 使い、batch size を64, 128, 256, 512, 1024 と変化させてtf_cnn_benchmarks での学習速度を計測しました。
modelは、resnet50, inception3, vgg16, nasnet, resnet152, inception4です。
fp16とfp32の学習速度を計測しました。
以前測定したRTX A6000と比較してどれほど高速になったかを掲載します。Geforce RTX 4090との比較も掲載します。
GPUサーバー選択の参考になれば幸いです。
RTX4090をDeepLearningで並列動作可能にさせるcuda-driversのversion
GeForce RTX 4090をDeepLearningなどで並列動作させようとした場合、driverのバージョンを限定(525.105.17)しないとうまく動作しません。
RTX4090 1, 2, 4 GPU vs RTX3090 1,2,4 GPU for DeepLearning
GeForce RTX 4090を1, 2, 4 GPU 使い、batch size を64, 128, 256, 512と変化させてtf_cnn_benchmarks での学習速度を計測しました。RTX3090との比較も掲載してあります。
modelは、resnet50, inception3, vgg16, nasnet, resnet152, inception4です。
fp16とfp32の学習速度を計測しました。
Genoa2ノードInfinibandクラスター
AMDの最新CPU、Genoaを搭載する2台のサーバーに200GbpsのInfinibandカードを搭載し、Infinibandクラスターを構築した。Infiniband Driverをインストールし、Subnet Managerを立ち上げ、最新のOpenMPIのソースコードをダウンロードしてbuild後、osu-micro-benchmarksで速度を計測してみた。ついでに、姫野ベンチで192コアでのベンチマークを撮ってみた。