4gpu
RTX 6000 Ada 1, 2, 4 GPU vs RTX 4090 1, 2, 4 GPU vs A6000 1, 2, 4 GPU
RTX 6000 Adaを1, 2, 4, GPU 使い、batch size を64, 128, 256, 512, 1024 と変化させてtf_cnn_benchmarks での学習速度を計測しました。
modelは、resnet50, inception3, vgg16, nasnet, resnet152, inception4です。
fp16とfp32の学習速度を計測しました。
以前測定したRTX A6000と比較してどれほど高速になったかを掲載します。Geforce RTX 4090との比較も掲載します。
GPUサーバー選択の参考になれば幸いです。
RTX4090をDeepLearningで並列動作可能にさせるcuda-driversのversion
GeForce RTX 4090をDeepLearningなどで並列動作させようとした場合、driverのバージョンを限定(525.105.17)しないとうまく動作しません。
4GPU: GeForce RTX 3090 Deep Learning Benchmarks
GeForce RTX 3090 の Deep Learning 学習での性能評価のため、HPCDIY-ERM1GPU4TS に4枚実装して、tensorflow で tf_cnn_benchmarks.py(ダウンロートはこちら)を実行してみました。
TensorFlow を新しくして再計測したらもっと高速になりました。その記事はこちら。
CPU: AMD EPYC Rome 7252 DP/UP 8C/16T 3.1G 64M 120W, Memory: 128GB, SSD: NVMe M.2 512GB
NVIDIA Driver: 455.32.00
TensorFlow: nvcr.io/nvidia/tensorflow:20.09-tf1-py3
4GPU: HPCDIY-ERM1GPU4TS に RTX3090を4枚実装してGPU100%での消費電力と温度
HPCDIY-ERM1GPU4TS(こちら)にGeForce RTX 3090 を4枚実装し、gpu_burn(こちら)を実行して、消費電力と温度が定常状態になるまでを nvidia-smi -l で監視してみました。
4GPU: GeForce RTX 3090 の nvidia-smi と deviceQuery
HPCDIY-ERM1GPU4TS(こちら)に GeForce RTX 3090 を4枚実装して、nvidia-smi と deviceQuery を実行してみた。