比較的回線事業者寄りの仕事をしてきましたので、近年のAIクラスター関連に要求される回線速度に戸惑いを感じています。同様に感じられている方も多いのではないでしょうか。
様々な最新技術に関するコンファレンスに参加して、その場で示される会話の中にHBMやDDRメモリーに対するCPUもしくはGPUからのBANDWIDTHの何割が機器間のネットワークで実現できているのかという指標が度々登場しています。
身近なコンピュータシステムで実現されているメモリーへのBANDWIDHを回線速度に変換して考えてみましょう。
片方向か双方向、オーバヘッド、占有か共有か等単純には比較できないのですが規模の目安として。Byte per secをBit per secに乱暴に変換するのは8倍すればよいので、128GB/sは1Tbps相当です。
上記例は最新のものですので2015年頃主流だったDDR3 21GBs/s=200Gbpsと考えると100Gbpsで一昔前のメモリーへのアクセスと同等と考える事もできます。
サーバーへの25Gbpsの接続の必要性を考えたときに考慮したのがHDDからのデータの読み出し能力でした。7200rpmのHDDからの読み出しは128.75MB/s。1Gbps程度なのでRAID構成にしても500MB/s程度。10Gbpsの回線に対して下回る数値です。つまり、単純にHDDからデータを取り出してネットワーク回線に投げる処理であれば10Gbpsで十分であり25Gbpsは過剰と言うことになります。
しかし、SSDが使われるようになりPCIe 4.0 x 4接続で6GB/sつまり50Gbps相当ですので25Gbpsでのサーバー接続が一般的になりました。もちろんサーバーは様々な複雑な処理をしますので、現在でもストレージ処理を行うNAS等以外は50Gbpsを超える接続はあまり一般ではありません。
必要な回線帯域の話はインターネットの回線速度はどの程度必要かの議論でもありました。
オフィスの一角に設置されていたNASへの情報の出し入れと同等の利便性がインターネット経由のクラウドストレージで可能になり。リモートワークの生産性も上がり、インターネットへの要求も回線速度から安定性に変化していると思います。つまりLANとWANの差がなくなるのが回線事業としての目安なのです。末端の端末の接続速度も1Gbpsで一区切りです。
もちろん、この数値は顧客へ提供しているものでありこれを支えるインフラ側は接続数の増加も必要帯域の要素ですので継続的な増強に追われています。契約回線数の増加ではなく利用形態の変化による帯域増は費用的にバランスが取れないとも言われます。
GPUが行うデータの入出力はメモリーに対してだけではなく隣接するGPUに対しても行われますが少し単純化してメモリーに関してだけを考えます。
ソフトウェアの動作を行ううえで理想のシステム要素の一つに無限の一面のメモリー領域へのアクセスがあります。情報は情報であり、それが手元のDRAMにあるのかSSDにあるのかLAN経由のNASにあるのかインターネット経由のストレージにあるのか区別なく同じ手法で同じ帯域でアクセスできることです。実際にはそれぞれに容量の限界があり、情報にアクセスする手順も異なるためにソフトウェア的にも複数の手法を組み合わせる必要があります。
その一方、ソフトウェアの進化によりこれらの手法を使い分けることを隠蔽する技術も進化しています。残るのは情報が所得でできる時間の差です。一番早いGPU直近のHBMと同じ時間で全ての情報がアクセスできることが目標なのです。
1.6Tbpsの数字をみて800Gの倍になったととらえるのではなく、HBMの何パーセントかを考えることがAIクラスターのシステムを扱ううえで重要だと感じています。
つまり、決して無限の帯域が要求されているのではなく。HBMと同じ帯域が欲しいというわけです。そして、その目標となるHBMも日々帯域が増強されなかなかその差は詰まりません。
数年前にAIクラスター向けの製品企画を考え始めた頃は1.6Tbpsが目標でした。1.6Tbpsのネットワーク接続を数年後に実現するために必要なステップを考えて製品の準備を進めてきたのです。
2026年に主流となるNVIDIA Rubin世代にはHBM4が採用されています。HBM4は2048x10Gbps構成ですので20Tbps。1.6Tbpsだと8%。
OCP2025ではHBM帯域の20%がscale-up帯域に欲しいとの話がありましたので、3.2Tを2026年に実現できるのが目標となるのです。
scale-up/scale-outの言葉に馴染めないときは、scale-upは手元のPCでのDRAMへのアクセスであり、scale-outはSSDへのアクセスだと考えると結構しっくりきます。scale-acrossはNASへのアクセスでしょうか。