HPCDIY Blog
HPCクラスター構築(その4)
クラスター構築の方針ですが、まず最小構成(hpc01とhpc02)のクラスターを完成させます。その後、hpc02をコピーしてhpc03, hpc04と作っていきます。
今回は
hpc01の/homeをNFSでexportして/hpc02で読み書きできるようにします。
それだけですと、hpc02のSSDなどの空きスペースが無駄になってしまう可能性がありますので、hpc02の/homeを/home2にリネームし、他のノード(hpc01も含む)でも読み書きができるようにします。
HPCクラスター構築(その3)
今回の作業は、
1. hpc01をコピーしてhpc02を作成する
2. hpc01でIPマスカレードして、クラスター内(hpc02)からインターネットにアクセス可能にする
です。
HPCクラスター構築(その2)
前回構築したhpc01にログインノードが有すべき機能を加えていきます。
最初にUbuntuを最新の状態にアップデートします。
ネットワークデバイス名をeth0, eth1に変更。
eth0をクラスター内ネットワークに、eth1はインターネット接続用に。
/etc/hostsをクラスター用に変更。
openssh-serverをインストールして、クラスター内ではパスワードなしでログイン可能にする。
HPCクラスター構築(その1)
複数台のコンピュータを使用している場合、クラスター化は必須で、次の利点があります。
1. すべてのコンピュータでファイルを共有できる
2. ユーザー登録が1台のコンピュータで可能
3. ジョブのキューにいつでもジョブを投入可能
4. ジョブスケジューラが、キューのジョブを、空いているコンピュータで自動実行する
5. 1台のコンピュータではジョブの実行速度が遅い場合、コンピュータを複数台使いジョブを高速実行できる
しかし、いざ構築しようと思うと、意外と手間がかかるものです。実際の構築は、ネットワークの接続や、ディスプレイやキーボードなどを繋ぎ変えたりする作業もあって、肉体的に疲れる作業ですが、Virtualboxを使って1台のコンピュータ上にクラスターの全ノードを構築すれば、肉体的に疲れる作業から解放され、ソフトウェアの構築作業に集中できます。構築が終わり、動作に問題ないことが確認できれば、各仮想マシンのOSをSystemCloner for Linux by Server-Gearを使い実際のコンピュータにクローンすれば、Real Worldのクラスターが出来上ります。
Linux でパスワードを忘れてログインできない時
Linuxでパスワードを忘れてログインできなくなった時、どうすればいいでしょうか。そのコンピュータがそばにあり、直接操作できれば(sshなどでのアクセスでなければ)問題を解決できます。ここでは、Ubuntu 20.04の場合を解説していきますが、他のディストリビューションでも同様に解決できると思います。
UbuntuでGrubメニューを表示するには
Ubuntu Desktopなどを標準インストールすると、次の画面のようなGrubメニューは表示されません。通常は何の問題もないのですが、パスワードを忘れるなどして、シングルユーザーモードでの立ち上げが必要になった場合、Grubメニューが表示されることが必要になります。
2GPU: GeForce RTX 4090 の nvidia-smi と deviceQuery
HPCDIY-ERMGPU8R4S(こちら)に GeForce RTX 4090 を 2 枚実装して、nvidia-smi と deviceQuery を実行してみました。
GeForce RTX 4090 2台でgpu_burn を実行した際の最高温度を測定してみた
GeForce RTX 4090 2台がテスト用に入荷してきたので、HPCDIY-ERMGPU8R4S に GeForce RTX 4090 を 2 枚実装して、gpu_burnを実行して、最大温度がどの程度のものか調べてみました。
System Cloner for Linux by Server-gear の解説
System Cloner for Linux by Server-gear はインストールされているOSのクローンメディアを作成するソフトウェアです。
ユーザー追加、設定変更などを行なった前/後の任意の時点でのOSを、内蔵M.2/U.2/SATA SSDまたは外付けUSBメディアなどにクローンします。
クローン後は、クローンされたメディアからbootすれば、元のOSと同じ状態になります。システムのバックアップ、システムのスナップショット、システムの別のマシンへのコピーなどに使うことができます。
8GPU: A6000 の nvidia-smi と deviceQuery
HPCDIY-ERMGPU8R4S(こちら)に A6000 を 8 枚実装して、nvidia-smi と deviceQuery を実行してみました。