OCP summit 2025速報

admin

October 15, 2025 • 6:43AM

メーカーとインテグレーターが存在しない世界

毎年OCP summitに参加して感じるのは、従来の商流を完全に無視した世界ということです。超巨大なユーザーが仕様を考えた製品を工場が生産し、ユーザーはそれを試験運用して本格運用に適用するか判断する。

一見大規模運用に思える事例も、試験運用であり。その時に採用されたテクノロジーがあっさり捨てられたりする。従来のメーカーが行っていた様々な評価作業のデータがそのまま公開される技術的には楽しい世界ではあります。

OCPのプログラム全体としては、インテグレータの確立を目指していますが中々難しい様子。

一段と増えた参加者

去年が７千人、今年は一万一千人。GAFAMに振り回されて、機器を納入しているベンダーは全く儲からないと言われるOCPのシステムですが、それでも動いている金額が大きいためか毎年参加者は増えてて、今年は11Kとのこと。日本からの参加者も増えている様子。

NVIDIAのボードメンバーへの参加の影響もあるでしょう

NVIDIA MGX partnerとOCP

nvidiaは既に独自のリファレンスを公開したパートナープログラムを展開しています。それとOCPの融合を行う？後でもう少し調べます。

COPPERの逆襲

データ伝送速度の高速化により、DACでの接続は少なくなり。弊社でも比較短距離であってもAOC 等の光での接続を進めていますが。OCP2025の展示会場では、224Gbps per laneのcopper接続話が目立ちます。nvidia NVL72がcopper接続の影響が大きいのでしょう。

ラックの背面に縦にカートリッジ化したバックボーンで実現するもの。幅を倍にしたラックで、太いDACでの取り回しを実現したもの。機器側もCPOならぬCPC(Co-Pakaged Copper)で、多心のcopperを高密度で接続するもの。

scale up
- プロトコル的には1024/2024 node max。実際は128?
- 20m以下
- 帯域はHBMの10-20%
scale out
- 設計上の悩み所
scale across
- 100キロを超える距離のことなう拠点
- スイッチのバッファー容量も欲しい

液冷は当たり前

液冷ラックは当たり前、機器も液冷対応が多数。ciscoも液冷のスイッチを参考展示。COHERENTのトランシーバーも液冷対応品。

しかし、こんなに高密度高消費電力のラックを日本で設置できるのでしょうか？

空冷ラックの限界は？

NVL36での80Kなので水冷。NVL16相当の30KWは空冷？

幅広ラック

通常の倍の横幅のラック、GPUたくさんをDAC/AECで接続してもスペースに余裕がある。ラック２本で間にケーブルを渡すよりはるかにまし。しかし、こんなのが出るとは。

Packet trimming

スイッチの出力キューに溜まったら、データ部を切り詰めて転送する。タイムアウトによる輻輳制御より迅速に機能する。スイッチでNAKを返すよりはマシだと思うが色々な事を考えるものだ。

link flap

回線の故障ではなく、linkが一瞬リセットされるlink flapに関する発表が多くありました。従来はあまり注目されていなかった要素ですがAI処理での再処理コストが高いことと、CPOの優位性を示す大きな要素であるからでしょう。

CREDOのZERO FLAP optics

管理用の光を使って接続の安定化？あとでもう少し調べます。

TH6採用製品

TOMAHAWK6採用の製品が順当に。128ポート800G OSFPと64ポート1.6T OSFPスイッチ。

64x1.6Tは５社くらい展示されていました。

CPO実装製品

こちらも順当か？112G per laneは少ないかな。もう少しあとで更新します。

OCPに参加しているベンダーは、価格の抑制と安定供給の観点から部品単位での個別調達を好む。その場合、CPOは変調を行うoptical engineと、ケーブルと、ELSPが個別に調達可能。しかし、従来のプラガブルと同等ではないのでまだ時間が必要という印象。シングルベンダーで調達する場合はこの問題は無い。

調達コストもプラガブルよりも高くなる可能性があるが、200G per laneではCPOの優位性がある

METAで半年400G FR4 CPOを運用した信頼性報告があり、従来のプラガブルより五倍ほど故障時間が長いと。

CXL関連

各社の展示の主役ではないが、実際の製品実装が多数。ハードウェアでのアビトレーションが可能になったぼはわかるが、OS/SOFT面での実装がよく判らなかった。

LPO関連

全く目立たない。112G per laneの2x400G DR4等でのLPOは実際に販売開始するベンダーは増える。224G per laneはLPOでは無理でLROという流れ。CPOに対し色々劣ることはあるがプラガブルは根強い。

FRO(Full Retimed Optics)

新しい技術が登場すると、区別するために既存技術にも新しい名前が付く事はよくある。

ワンラックAIクラスター

利用するワークロードに強く依存すると思うのだが、ワンラックで構成されるAIクラスターが基本単位になって。その階層構造で大規模AI DCが構築されるとの主張が複数のセッションであった。nvidia NVL72の影響がそれほど大きいのか。もっともNVL72はラックあたりの要求電力がとても大きいので日本国内のDCで設置するのは難しいと思う。

その一方、ラック内だけ高密度高速配線が必要との前提だとcopepr/COAXでの配線が注目されているのは理解できる。

液冷OSFP cage

224G per laneを見据えて、液冷を前提としたOSFPのcageデザインが。OSFP MSA 5.2で規定。

ESUN(Ethernet for Scale-Up Networking)

SUE-T(Scale-Up Ethernet Transport)

UALink

scale UP

800VDC

光トランシーバーの故障予測

AIのジョブが回線の不具合で止まるととっても痛いので、光トランシーバーの様々なステータスをMLに喰わせて故障予測をしようという話。何かしらの運用結果を期待したがこれからということだった。期待しましょう。

近距離inter connectの統合

ethernetもPCIeも伝送仕様は似通ったものなんだから、次世代の400G bps per lane相当するの仕様は統合できるんじゃないかという話。本当にそう思う。ethernet用のLPOでPCIe 6.0の接続デモもやっているし。

broadcom TH6

cisco P200

NVIDIA SpectrumX-6

MARVELL THX

September 17, 2025 • 12:39PM

OSFPなのに4laneしか使わない製品の表記について

October 28, 2025 • 11:57AM

運用イメージが見えてきたLPO

Topics

トピックがありません。

OCP summit 2025速報

メーカーとインテグレーターが存在しない世界

一段と増えた参加者

NVIDIA MGX partnerとOCP

COPPERの逆襲

液冷は当たり前

空冷ラックの限界は？

幅広ラック

Packet trimming

link flap

CREDOのZERO FLAP optics

TH6採用製品

CPO実装製品

CXL関連

LPO関連

FRO(Full Retimed Optics)

ワンラックAIクラスター

液冷OSFP cage

ESUN(Ethernet for Scale-Up Networking)

SUE-T(Scale-Up Ethernet Transport)

UALink

800VDC

光トランシーバーの故障予測

近距離inter connectの統合

Previous Article

Next Article

Topics

From Our Blog

OCP summit 2025速報

メーカーとインテグレーターが存在しない世界

一段と増えた参加者

NVIDIA MGX partnerとOCP

COPPERの逆襲

液冷は当たり前

空冷ラックの限界は？

幅広ラック

Packet trimming

link flap

CREDOのZERO FLAP optics

TH6採用製品

CPO実装製品

CXL関連

LPO関連

FRO(Full Retimed Optics)

ワンラックAIクラスター

液冷OSFP cage

ESUN(Ethernet for Scale-Up Networking)

SUE-T(Scale-Up Ethernet Transport)

UALink

800VDC

光トランシーバーの故障予測

近距離inter connectの統合

この記事をシェア

Previous Article

Next Article

Topics

From Our Blog