メーカーとインテグレーターが存在しない世界

毎年OCP summitに参加して感じるのは、従来の商流を完全に無視した世界ということです。超巨大なユーザーが仕様を考えた製品を工場が生産し、ユーザーはそれを試験運用して本格運用に適用するか判断する。

一見大規模運用に思える事例も、試験運用であり。その時に採用されたテクノロジーがあっさり捨てられたりする。従来のメーカーが行っていた様々な評価作業のデータがそのまま公開される技術的には楽しい世界ではあります。

OCPのプログラム全体としては、インテグレータの確立を目指していますが中々難しい様子。

一段と増えた参加者

去年が7千人、今年は一万一千人。GAFAMに振り回されて、機器を納入しているベンダーは全く儲からないと言われるOCPのシステムですが、それでも動いている金額が大きいためか毎年参加者は増えてて、今年は11Kとのこと。日本からの参加者も増えている様子。

NVIDIAのボードメンバーへの参加の影響もあるでしょう

NVIDIA MGX partnerとOCP

COPPERの逆襲

データ伝送速度の高速化により、DACでの接続は少なくなり。弊社でも比較短距離であってもAOC 等の光での接続を進めていますが。OCP2025の展示会場では、224Gbps per laneのcopper接続話が目立ちます。nvidia NVL72がcopper接続の影響が大きいのでしょう。

ラックの背面に縦にカートリッジ化したバックボーンで実現するもの。幅を倍にしたラックで、太いDACでの取り回しを実現したもの。機器側もCPOならぬCPC(Co-Pakaged Copper)で、多心のcopperを高密度で接続するもの。

  • scale up
    • 1024 node max
    • 20m以下
  • scale out
  • scale across
    • 100キロを超える距離のことなう拠点

液冷は当たり前

液冷ラックは当たり前、機器も液冷対応が多数。ciscoも液冷のスイッチを参考展示。COHERENTのトランシーバーも液冷対応品。

幅広ラック

通常の倍の横幅のラック、GPUたくさんをDAC/AECで接続してもスペースに余裕がある。ラック2本で間にケーブルを渡すよりはるかにまし。しかし、こんなのが出るとは。

link flap

回線の故障ではなく、linkが一瞬リセットされるlink flapに関する発表が多くありました。従来はあまり注目されていなかった要素ですがAI処理での再処理コストが高いことと、CPOの優位性を示す大きな要素であるからでしょう。

CREDOのZERO FLAP optics

管理用の光を使って接続の安定化?あとでもう少し調べます。

TH6採用製品

TOMAHAWK6採用の製品が順当に。128ポート800G OSFPと64ポート1.6T OSFPスイッチ。

CPO実装製品

こちらも順当か?112G per laneは少ないかな。もう少しあとで更新します。

OCPに参加しているベンダーは、価格の抑制と安定供給の観点から部品単位での個別調達を好む。その場合、CPOは変調を行うoptical engineと、ケーブルと、ELSPが個別に調達可能。しかし、従来のプラガブルと同等ではないのでまだ時間が必要という印象。シングルベンダーで調達する場合はこの問題は無い。

調達コストもプラガブルよりも高くなる可能性があるが、200G per laneではCPOの優位性がある

METAで半年400G FR4 CPOを運用した信頼性報告があり、従来のプラガブルより五倍ほど故障時間が長いと。

CXL関連

各社の展示の主役ではないが、実際の製品実装が多数。ハードウェアでのアビトレーションが可能になったぼはわかるが、OS/SOFT面での実装がよく判らなかった。

LPO関連

全く目立たない。112G per laneの2x400G DR4等でのLPOは実際に販売開始するベンダーは増える。224G per laneはLPOでは無理でLROという流れ。CPOに対し色々劣ることはあるがプラガブルは根強い。

ワンラックAIクラスター

利用するワークロードに強く依存すると思うのだが、ワンラックで構成されるAIクラスターが基本単位になって。その階層構造で大規模AI DCが構築されるとの主張が複数のセッションであった。nvidia NVL72の影響がそれほど大きいのか。もっともNVL72はラックあたりの要求電力がとても大きいので日本国内のDCで設置するのは難しいと思う。

その一方、ラック内だけ高密度高速配線が必要との前提だとcopepr/COAXでの配線が注目されているのは理解できる。

液冷OSFP cage

224G per laneを見据えて、液冷を前提としたOSFPのcageデザインが。OSFP MSA 5.2で規定。

ESUN(Ethernet for Scale-Up Networking)

SUE-T(Scale-Up Ethernet Transport)

UALink

scale UP

800VDC

光トランシーバーの故障予測

AIのジョブが回線の不具合で止まるととっても痛いので、光トランシーバーの様々なステータスをMLに喰わせて故障予測をしようという話。何かしらの運用結果を期待したがこれからということだった。期待しましょう。

近距離inter connectの統合

ethernetもPCIeも伝送仕様は似通ったものなんだから、次世代の400G bps per lane相当するの仕様は統合できるんじゃないかという話。本当にそう思う。ethernet用のLPOでPCIe 6.0の接続デモもやっているし。

この記事をシェア

Previous Article

September 17, 2025 • 12:39PM

Topics

トピックがありません。

From Our Blog