漠然とした質問

先日のJANOG54の会場では「800Gどうなんでしょう?」との問いかけがありました。あまりに漠然とした質問であり答えようがないのですが、あえてそのような質問がされる背景を類推していくつかのストーリーを展開してみます。

現在SPのバックボーンの主力を400G FR4と伝送装置の組み合わせで行っていて、次の段階として800Gを導入する事になった時にケーブリング等で新しいものが必要になるのか知りたい。

個人的見解ですが、SPのバックボーンでは800Gは導入されないのではないかと思っています。伝送装置間では800Gや1.6Tのトランスポンダが導入されることがあっても、運用されるパスは100/400Gでしょう。確定的な理由は無いのですが”たかが倍”の速度である800Gをネットワークの設計上新たな要素として取り入れるメリットがないからです。SP向けスイッチベンダーが発表している800G対応製品も2x400Gでの運用を想定している純正品トランシーバーのラインナップであります。400Gへの移行時も”たかが四倍”の帯域増ではパスの多重化で賄えると考えたSPが多かったと理解しています。

つまり、400G FR4だけ考えていればOK。ただ、QSFP112パッケージが2024年末には必要になるかも。

400ZRもどんどん使われるようになるでしょうが、800ZRは歓迎されないと思います。

データセンターのストレージやeast-westトラフィック用の広帯域ファブリックを運用していて、一部400Gを使っているが800Gの混在方法が不安。

パラレルパスでの帯域増で対応できないのかジャイアントフローです。その為、裏側と言いますかインターネット経由で顧客とデータをやり取りするのではなくDC内部でのデータのやり取りを行うファブリックは常に太いパスの要求があります。しかし、使用するアプリケーションに依存はしますが、多くのサーバーが備えるNICの帯域は100G以下であり400G NICが使われるのは後述するAI/GPUサーバーだけ。このケースでも800Gの必要性をあまり感じません。

配線距離的に400G DR4が有利かもしれません。100G CWDM4の市場価格があまりに安い為に誤解されがちですが、波長多重を実装したトランシーバーはファイバー多重よりも高価なのが普通なのです。400G DR4とFR4の価格差はある程度維持されるはずです。MPOパッチパネルが高価なのでトータルで400G FR4の方が安価という事になるかもしれませんけど。

100Gから400Gへの橋渡しとして400G DR4を導入している。400Gが主流になる世代でも400G DR4で行くのか800Gへの以降も意識すると何を選べば一番スムーズに移行できるのか知りたい。

100/400G混在ではQSFP28であっても100 DR/FR1/LR1が必要で有ることが浸透してきており、一時期何度も繰り返し説明してきたlane速度とFECの違いの説明をすることも少なくなりました。そして、同様な配慮が800Gでも必要なのかと聞かれます。

他のBLOG記事でも繰り返し強調していますが、LANE速度が基本であり100/400/800といった速度をどのLANE構成で実現しているかを理解しないと何時までたっても技術的に次の段階に備える事は出来ません。800Gを実現するLANE構成が8x100Gなのか、4x200Gなのか。それが問題です。

28Gと56G SerDesではFECの符号構成が異なりましたが、112Gと224Gもまた異なるのです。他にも224Gになるとシャーシ内の伝送距離を短くするCPOが必要になりそうですし色々な面で壁があります。

現行の構成部品で運用できるのは112G LANEまでで一区切りとなるでしょう。

400G DR4で使用して居るSMF MPO-12がそのまま使えるのは800G DR4となります。ファイバー多重であればO band ゼロ分散波長 PAM4 224G 500mは伝送品質的には問題ありませんが、QSFP-DD800/OSFP112パッケージで実装するのはGEARBOXが必要になりFEC変換も必要なのでかなり実装困難。QSFP224なら回路構成的には簡単そうですが機器側のインターフェースとしてCPOの方が適切かも。この辺りはまだ見通すことが出来ません。

SMF MPO-16を使用する800G DR8は現時点でも販売していますが、400G SR8が実質AOCでしか使われていない様にSMF MPO-16は敬遠されるのでやはりAOCに限定されそうです。それよりは SMF MPO-12を二つ備える2x400G DR4モジュールを800G一つの論理インターフェース設定で利用するのが順当に思えます。

NVIDIA GB200世代になれば800Gが標準になるのでしょうか。

ここまでの記述では800Gに対して否定的な内容でしたが、このエリアだけは全く異なります。設備的にも部分的に高速化や混在運用を考慮する必要はなく。クラスター単位で総入れ替えが一般的です。

そしてAIクラスターでのGPU間接続は外部ネットワークでは無く内部バス接続をそのまま外部へ拡張したものです。具体的にはPCIeでありNVIDIA独自のNVLinkです。PCIe5.0x16は4GBx16で512Gbps。PCIe6.0x16はその倍の1,024Gbps相当であり。GB200が採用しているNVLink 5th GENは1,800GB/18=100GB=800Gbpsです。スイッチファブリックのSerDesは224Gbps/laneとなります。

「本当に800Gbpsもの帯域が必要なのか?」を考える必要が無く、内部バスと同等の帯域を用意しないとシステム本来の性能が出ないので、合わせてあたりまえなのです。

配線を考える際に消費電力からくる物理的配置もより考慮する必要があり。仮にラック筐体で72GPUを備えるNVL72が設置できれば、高速なGPU間接続はラック内に収斂しており、よほど大規模な要件で無ければ外部に高速リンクを必要としません。

しかし、NVL72の120kw大規模消費電力ラックはまず国内には設置できないので複数筐体を複数のラックに分散配置するシステムが日本国内では一般的であろうと予測しています。その場合4x200Gの800G容量のGPU間接続を100m前後の距離で接続する必要があります。800G SR8/DR8/FR8ではLANE速度が合わず、800G VR4は距離が足りない。800G DR4/FR4相当となるでしょう。LANE速度の差はGEARBOXを使用すれば機能的には対応できるのですが遅延を嫌う事と高速なGEARBOXは消費電力も大きい為にトランシーバーのパッケージに収まらない可能性が高い為です。

JANOG54でSofrBankから広域分散AIクラスターの話がありましたが、288 GPUのGB200 SuperPod構成となると消費電力は1MW級ですので複数のDCに分散するのは自然なのかもしれません。その時は800ZRの登場でしょうか。

光トランシーバーメーカーとして頭が痛いのは、4 lane構成が基本なのにQSFP112/224を採用せず8 lane仕様のOSFP-RHSの半分しか配線しないモジュールを使用する点です。CX8もOSFP-RHSタイプはやはり片側しか配線されていない模様です。

またAIファブリックでは実質使われる部品が限定されるので、相互接続に必要なマージンが少なくて済みます。そこで、相互接続性よりも消費電力の低減を優先したLPOの登場です。逆に言うとAIクラスター以外で危険を冒してLPOを導入する例は無いのではないかと考えています。

2x400Gか800Gか

ここまで記述してきましたが、8x100G lane構成を800Gと呼ぶのは止めた方が良いと思います。2x400Gとして使われるストーリーしか思いつきません。4x200G構成で本当の800Gと呼ぶべきです。弊社としては製品名やパーツナンバーの付け方に留意したいと思います。

この記事をシェア

Previous Article

June 19, 2024 • 7:26AM

Topics

トピックがありません。

From Our Blog