News

さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」を一般提供開始

  デジタルインフラサービスを提供するさくらインターネット株式会社(本社:大阪府大阪市、代表取締役社長:田中 邦裕、以下「さくらインターネット」)は、生成AI向け推論API基盤「さくらのAI Engine(以下、本サービス)」を2025年9月24日(水)より一般提供を開始します。
 これにより、「さくらのクラウド」のコントロールパネルから本サービスを利用でき、大規模言語モデル(LLM)をはじめとする基盤モデルを、API経由でアプリケーションへ手軽に組み込むことが可能となります。

 生成AIを実業務やサービスで利用する「推論※1」需要の高まりを受け、企業や地方自治体などが自社サービスに会話生成や音声認識、および検索拡張生成(以下、RAG※2)に対応するベクトルデータベースを最小限の開発作業で実装できる、推論向けAPI基盤の開発に至りました。

 また、本サービスの提供開始にあわせて、フルマネージドの生成AI向け実行基盤「さくらの生成AIプラットフォーム」の名称を、生成AI向けビジネス基盤「さくらのAI」へと変更します。

 今後、さくらインターネットは「さくらのAI」のもと、生成AIを活用した各種サービスを段階的に拡充し、企業の業務効率化や事業の成長を継続的に支えてまいります。

※1 推論(inference) / 学習済みモデルのパラメータを更新せず、入力に基づいて出力を計算・生成する処理。
※2 Retrieval Augmented Generation / 自社に蓄積された文書などの社内ドキュメントや外部知識を検索し情報を抽出したうえで、それに基づいてLLMに回答を生成させる技術。

「さくらのAI Engine」について

「さくらのAI Engine」は、生成AI向けクラウドサービス「高火力」を基盤とし、APIを通じて国内外の複数の基盤モデルやRAGの機能を提供します。これにより、企業は目的や性能用件に応じて最適な基盤モデルを選択でき、生成AIを活用したアプリケーションを、自社サービスに組み込むことが可能になります。また、「さくらのAI」は下図に示す通り、生成AI活用に必要な機能群を統合したビジネス基盤であり、「さくらのAI Engine」はその中核となるサービスです。

「さくらのAI」全体イメージ

特長

■開発や導入のしやすさ
・インフラ構築が不要
計算基盤やネットワーク構成なしで、クラウド上の実行環境を利用できます。

・開発しやすいAPIベースの構成
各種AI機能はREST APIとして提供しており、アプリケーションへの組み込みやプロトタイプ開発が容易です。

・検索拡張生成(RAG)の迅速な実装
ベクトルデータベースと連携するRAG機能をAPI経由で簡単に利用でき、自社データを活用したチャットボットやFAQなどにも対応可能です。

■国内完結で利用可能
さくらインターネットが運営する国内のデータセンターで構成されたインフラ上で、基盤モデルを選択可能なため、機密情報や個人情報を国内で取り扱うことができます。これにより、公共分野や高いセキュリティ要件が求められる業種でも安心して導入いただけます。

■NVIDIA製GPUによる安定した推論性能
推論処理にはNVIDIA製の高性能なGPUリソースを採用しており、複雑な生成AI処理にも安定したパフォーマンスを発揮します。

※上記は、提供開始時点の情報です。今後更なる拡充を予定しています。

提供仕様

サービス類型

基盤モデル

Chat completions

gpt-oss-120b

llm-jp-3.1-8x13b-instruct4

Qwen3-Coder-30B-A3B-Instruct

Qwen3-Coder-480B-A35B-Instruct-FP8

Audio Transcription

whisper-large-v3-turbo​

Embeddings​

multilingual-e5-large

ドキュメント(RAG)

利用料金

「基盤モデル無償プラン」と「従量課金プラン」の2種類を用意しており、両プラン共通の無償利用枠を超過した場合、「基盤モデル無償プラン」ではAPIリクエストに対してレート制御がかかり、「従量課金プラン」では超過利用分への料金が発生します。

なお、「基盤モデル無償プラン」には申し込み数に上限があり、上限に達した場合は新規の申し込み受付を停止いたします。ご利用を検討中の方は、ぜひお早めにお申し込みください。

■「基盤モデル無償プラン」および「従量課金プラン」共通の無償枠

サービス類型

1か月あたりの無償枠数

Chat completions​

3,000回

Audio transcription

50回

Embeddings​

10,000回

ドキュメント(RAG)※1

■従量課金プラン

サービス類型

基盤モデル

無償利用枠の超過料金(税込)2

Chat completions

gpt-oss-120b

Input:0.15円 / 10,000トークン

Output:0.75円 / 10,000トークン

llm-jp-3.1-8x13b-instruct4

Input:0.15円 / 10,000トークン

Output:0.75円 / 10,000トークン

Qwen3-Coder-30B-A3B-Instruct

Input:0.15円 / 10,000トークン

Output:0.75円 / 10,000トークン

Qwen3-Coder-480B-A35B-Instruct-FP8

Input:0.3円 / 10,000トークン

Output:2.5円 / 10,000トークン

Audio Transcription

whisper-large-v3-turbo​

0.5円 / 60秒

Embeddings​

 

multilingual-e5-large

Input:2円 / 10,000トークン

Output:無料

ドキュメント(RAG)※1

3円 / 100チャンク

※1 ドキュメント(RAG)に無償枠数はありません。ご利用に応じて最小単位(100チャンク)ごとに料金が発生。
※2 無償利用枠を超過した場合は、各基盤モデルの最小単位(10,000トークン / 60秒)ごとに料金が発生。

提供開始日

2025年9月24日(水)

詳細・利用開始の申し込み

以下のウェブページをご参照ください。
https://www.sakura.ad.jp/aipf/ai-engine/

参考

・さくらインターネット、フルマネージドの生成AI向け実行基盤「さくらの生成AIプラットフォーム」を提供開始(2025年5月14日発表)
https://www.sakura.ad.jp/corporate/information/newsreleases/2025/05/14/1968219471/

・さくらインターネット、生成AI向けプラットフォームサービスの開発を開始(2024年11月25日発表)
https://www.sakura.ad.jp/corporate/information/newsreleases/2024/11/25/1968217720/

さくらインターネット株式会社について

代表者:代表取締役社長 田中 邦裕
本 社:⼤阪市北区⼤深町6番38号 グラングリーン⼤阪 北館 JAM BASE 3階
創 業:1996年12月23日
設 立:1999年8月17日
URL :https://www.sakura.ad.jp/corporate/

この件に関する報道関係者からのお問い合わせ先

さくらインターネット株式会社 広報担当
問い合わせフォーム:https://sakura.f-form.com/sakurapr

本サービスに関するお問い合わせ

問い合わせフォーム:https://www.sakura.ad.jp/inquiry/aipf/

 

※本内容は発表時点の情報です。その後、予告せず変更となる場合があります。
※記載されている会社名、製品名は、各社の商標、もしくは登録商標です。