News

さくらインターネット研究所、機械学習システム分野の国際会議「MLSys 2026」のIndustry Trackにて論文採択
〜HPCクラスタ「さくらONE」の設計とLLM開発における運用知見 を発表〜

 デジタルインフラサービスを提供するさくらインターネット株式会社(本社:大阪府大阪市、代表取締役社長:田中 邦裕、以下「さくらインターネット」)の組織内研究所「さくらインターネット研究所」に所属する研究員の論文が、機械学習とシステムの交差領域における国際会議「Machine Learning and Systems(MLSys)2026」のIndustry Trackに採択されました。
 本論文は、米国ワシントン州ベルビューにて、現地時間2026年5月21日(木)に発表予定です。

 

研究の概要

 さくらインターネット研究所は、大規模言語モデル(LLM)を含むAIの学習向けに設計したHigh Performance Computing (HPC)クラスタ「さくらONE」を開発・運用しています。
本システムは特定ベンダーに依存しないオープンなネットワーク技術を採用しており、HPC分野の国際会議「ISC 2025」にて発表された国際的なスパコンの処理性能ランキングである「TOP500」においてHPLベンチマークで世界49位にランクインしました。
本システムは上位100システムの中でオープンネットワークスタックのみを採用した唯一のシステムです。また、公開事例が極めて少ない中、中規模GPUクラスタ(数百GPU規模)の実運用環境から得られたワークロード特性に関する貴重な知見が高く評価され、研究論文採択にいたりました。

研究の背景と目的

 さくらインターネット研究所では、日本のAI研究・産業競争力の向上を支える大規模AIインフラの研究開発を進めています。特に、コスト効率・柔軟性・透明性に優れたオープンな分散型アーキテクチャの実現と、実際のLLM開発における運用知見の体系化に取り組んでいます。

 今回採択された論文では、この目的のもと、ネットワーク規格の800ギガビットイーサネット(以下、800 GbE)とネットワークOSのSoftware for Open Networking in the Cloud(以下、SONiC)を組み合わせたオープンEthernetネットワークを基盤として、以下の2点を中心に取り組みました。

  1.  ベンダーに依存しないオープンEthernetネットワークを基盤とするAI向けHPCシステムのアーキテクチャ設計・実装と性能評価
  2.  単一プロジェクト・単一テナント環境におけるLLM開発の実運用データに基づくワークロード特性の観測と分析

 従来のAI向けHPCシステムでは、高帯域・低レイテンシを実現するネットワーク技術として特定ベンダーに依存した専用の相互接続ネットワーク(InfiniBandなど)が主流でした。そのため、オープンなEthernetベースのネットワークが同等の性能・安定性を本番環境で達成できるかは、実証的な事例が乏しい状況でした。また、GPUクラスタの利用特性についての公開事例は、数万GPU規模のハイパースケールクラスタに偏っており、日本を含む世界の多くのAI開発現場で実際に使われているGPU数百基規模の中規模クラスタにおける実運用データの公開事例は少ない状況でした。

研究の特長と成果

 さくらインターネット研究所は、オープンなネットワークOSであるSONiCを用いた800 GbEのレール最適化リーフ・スパインファブリックを採用し、NVIDIA H100 GPUを800基(100ノード×8基)搭載したAI向けHPCクラスタ「さくらONE」を構築・運用しており、こうした事例が乏しい状況に対して、本論文を通じてその設計・実装・運用知見を広く公開しました。

 さくらONEは、スパコンの標準的な計算性能指標であるHPL(High Performance Linpack)ベンチマークでISC 2025 TOP500において33.95 PFLOP/sを記録し、世界49位にランクインするとともに、上位100システムの中でオープンネットワークスタックのみを採用した唯一のシステムです。
 さらに実際の科学技術計算に近い性能を評価するHPCG(High Performance Conjugate Gradients)で396.295 TFLOP/s、FP8混合精度のHPL-MxPで339.86 PFLOP/sを達成しており、オープン技術によって専用ネットワークに匹敵するHPC・AI性能を実現できることを実証しました。

 また、本システムで実施した日本語医療LLMプロジェクトの実運用データの分析から、以下の知見を得ました。

  • ジョブの件数は1〜4ノード程度の小規模ジョブが大多数を占める一方、GPU占有時間の大半は17ノード以上の大規模ジョブが消費しており、GPUリソースの消費が少数の大規模ジョブに集中していることを確認
  • 大多数のジョブは短時間で完了するが、17ノード以上の大規模ジョブになるほど実行時間の分布が長い裾を持ち、17〜32ノードのジョブのうち約6%が1週間を超える連続実行になることを確認
  • プロジェクトの進行に伴い、大規模な継続事前学習フェーズから中規模なファインチューニングフェーズへとリソース利用が移行するという、LLM開発ライフサイクルに典型的な遷移を確認

 これらの成果は、AIインフラの設計指針として産業界・学術界の双方に有用な知見を提供するものです。特に重要なのは、ハイパースケールクラスタで報告されてきたワークロードの傾向が、さくらONEのような中規模クラスタにおいても同様に観測されたという点です。これは、こうした特性がシステム規模に依存しないGPUクラスタの共通の性質であることを示すものであり、GPU 100〜1,000基規模のクラスタを運用する世界中の事業者にとって設計の参考となる知見を提供するものです。オープンでコスト効率の高いHPCインフラの実現可能性を実証するとともに、実運用に基づくワークロード分析は、次世代の産業向け計算基盤の設計指針としても活用されることが期待されます。

 さくらインターネット研究所は、今後も社会にとって有用で新しいインターネットインフラを実現するための研究開発に努めてまいります。

採択された論文について

タイトル

SAKURAONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment

(和訳)
さくらONE: オープンEthernetベースのAI HPCシステムと単一テナントLLM開発環境における観測されたワークロードダイナミクス

論文

https://arxiv.org/abs/2604.13600

概要

さくらONEは、さくらインターネット研究所が開発・運用するマネージド型HPCクラスタです。高火力 PHYベアメタルGPUプラットフォームを基盤とし、LLM学習を含む高度なワークロードに最適化されています。ISC 2025 TOP500においてHPLで世界49位にランクインし、上位100システムの中でオープンネットワークスタック(800 GbEおよびSONiC)のみを採用した唯一のシステムです。
測定性能はHPL Rmax 33.95 PFLOP/s、HPCG 396.295 TFLOP/s、FP8によるHPL-MxP 339.86 PFLOP/sです。本システムはNVIDIA H100 GPUを8基搭載した100ノードと、2 PBオールフラッシュLustreファイルシステムで構成され、RoCEv2を用いたレール最適化800 GbEリーフ・スパインファブリックで相互接続されています。単一研究プロジェクトによる独占利用を通じて開発関連のジョブの特性を観測した結果、小規模ジョブが件数では大多数を占める一方、少数の大規模ジョブがGPUリソース時間の大半を消費すること、およびプロジェクトの進行とともにリソース利用が大規模学習から中規模のファインチューニングへと移行することが確認されました。これらの観測は、単一プロジェクトが専有利用するGPUクラスタにおける実世界での利用実態を示すものです。

「MLSys 2026 Industry Track」での発表について

「MLSys」について

「MLSys」は、機械学習とシステムの交差領域における最先端研究の発表を目的とした国際会議です。2018年に「SysML」として第1回が開催され、現在の名称に改称後も毎年開催されています。機械学習とシステムという2つの研究コミュニティが知見を共有し、新たな接点を生み出すことを目指して設立されました。機械学習の効率化・大規模化を支えるシステム技術から実世界への統合に向けた実践的な取り組みまで幅広いテーマを扱い、産学を問わず注目される権威ある会議の一つです。

「Industry Track」について

「Industry Track」は、MLSys 2026より新設された発表トラックで、実際に運用・開発されているシステムの設計・実装から得られた知見の共有を目的としています。研究トラックとは異なり、新手法の提案などの新規性よりも、本番環境での大規模運用に裏打ちされた設計手法・性能評価・実装上の洞察を提供する論文が評価されます。

日時・場所

日時:2026年5月21日(木)
場所:米国ワシントン州ベルビュー Hyatt Regency Bellevue

発表者

小西 史一、坪内 佑樹、鶴田 博文(さくらインターネット株式会社)

詳細

下記ウェブサイトをご参照ください。
https://mlsys.org/Conferences/2026

謝辞

本論文で解析対象としているデータは、戦略的イノベーション創造プログラム(SIP)統合型ヘルスケアシステムの構築 (JPJ012425) の補助を受けて実施された研究の成果である、「医療用LLM」の学習時に観測された活動データ(学習プロセスにおけるシステム挙動等)を使用しております。

参考

さくらインターネット研究所、クラウド型のスーパーコンピュータシステム「さくらONE」が処理性能ランキングTOP500で、世界49位を獲得(2025年6月11日公開)
https://www.sakura.ad.jp/corporate/information/newsreleases/2025/06/11/1968219771/

さくらインターネット株式会社について

代表者:代表取締役社長 田中 邦裕
本 社:大阪府⼤阪市北区⼤深町6番38号 グラングリーン⼤阪 北館 JAM BASE 3階
創 業:1996年12月23日
設 立:1999年8月17日
URL :https://www.sakura.ad.jp/corporate/

この件に関する報道関係者からのお問い合わせ先

さくらインターネット株式会社 広報担当
問い合わせフォーム:https://sakura.f-form.com/sakurapr

 

※本内容は発表時点の情報です。その後、予告せず変更となる場合があります。
※記載されている会社名、製品名は、各社の商標、もしくは登録商標です。