Web開発 2026年5月10日

Cloudflare Workers AI

Cloudflareのグローバルネットワーク上のサーバーレスGPUで、Llama・Mistral・Whisper等のOSSモデルを推論実行できるAIプラットフォーム。

Workers AI

一行サマリ

Cloudflareのグローバルネットワーク上のサーバーレスGPUで、Llama・Mistral・Whisper等のOSSモデルを推論実行できるAIプラットフォーム。

解決する課題(Why)

自前GPUの調達・スケーリング・遊休コストといったAI推論基盤の運用負担を排除する。Workers/Pagesと同じエッジ拠点で推論が走るため、別クラウドのLLM APIを呼ぶ場合に発生する追加レイテンシとエグレス費用を回避できる。アイドル時の課金がない従量課金(Neurons)で、PoCから本番までインフラ設計を書き換えずにスケールできる。

主要機能(What)

  • Text Generation:Llama 3/4、Mistral、Qwen、Gemma、DeepSeek、GPT-OSS、Kimi等のチャット/指示モデル
  • Text Embeddings:BGE系、Qwen3-Embedding、PLaMo Embedding等
  • Image Generation:FLUX 1/2、Leonardo Lucid Origin、Phoenix
  • Speech:Whisper(ASR)、MeloTTS、Deepgram Aura/Nova/Flux(TTS・STT、WebSocket対応)
  • Translation:m2m100、IndicTrans2
  • Classification / Object Detection / Reranker / Vision LLM
  • Function calling・Reasoning・Vision入力対応モデルあり
  • AI Gateway / Vectorize / Workers / Durable Objects との統合

提供モデル抜粋

カタログ総数97モデル(2026-05時点)。代表例:

  • Llama 3.1/3.2/3.3、Llama 4 Scout 17B(MoE)、Llama Guard 3
  • Mistral 7B、Mistral Small 3.1 24B
  • Qwen 2.5 Coder 32B、QwQ 32B、Qwen3 30B-A3B
  • DeepSeek-R1-Distill-Qwen-32B
  • GPT-OSS 20B/120B(OpenAIオープンウェイト)
  • Gemma 3 12B / Gemma 4 26B-A4B
  • Kimi K2.5 / K2.6(Moonshot、1Tパラメータ・262k context)
  • GLM-4.7-Flash(Zhipu)
  • Whisper / Whisper-large-v3-turbo
  • BGE Embeddings(small/base/large/m3)

アーキテクト視点:いつ選ぶか

適しているシーン

  • OSSモデルで要件を満たせるユースケース(チャットボット、要約、RAG、埋め込み生成、画像生成、文字起こし)
  • Workers / Pages と同居させてエッジ近接で推論したい構成
  • アイドル時間が長く従量課金のメリットが大きい用途
  • データ主権の理由でCloudflareネットワーク内で完結させたい場合
  • Vectorize + Workers AI で完結するRAGパイプライン

適していないシーン

  • GPT-5、Claude Sonnet 4.5、Gemini 3 Pro等のフロンティアモデルが必須の用途 → AI Gateway経由でOpenAI/Anthropic/Google直結が妥当
  • 大規模ファインチューニング(LoRA対応はあるが基盤学習は不可)
  • 1分あたり数千req超のText Generationを単一プランで張り付かせる用途(task type別レート制限あり)
  • リアルタイム性極端に厳しい音声対話(一部モデルはWebSocket対応だが選択肢は限定的)

競合・代替

観点Workers AIOpenAI APIAWS BedrockReplicateTogether / Groq
モデルOSS中心97種GPT-4o/5、o系Anthropic/Meta/Mistral等マルチOSS幅広いOSS中心
デプロイ拠点Cloudflareエッジ米国中心AWSリージョン集約GPU集約GPU
エッジ統合Workers同居で最強別ネットワークAWS内なら強
課金Neurons従量トークン従量トークン従量秒課金トークン従量
フロンティアモデル×◎(Claude)
OSS最新追従○(gpt-oss・Kimi等迅速)×
無料枠10,000 Neurons/日なしなし限定限定

料金モデルの要点

  • 単価:$0.011 / 1,000 Neurons(バックエンドはNeurons課金、UIは$/トークン換算で表示)
  • 無料枠:全プランで10,000 Neurons/日、UTC 0時リセット
  • Workers Free:無料枠超過分は不可、Paidへアップグレード必須
  • Workers Paid:無料枠超過分を $0.011/1k Neurons で従量課金
  • モデル例(M=百万トークン):
    • Llama 3.1 8B fp8-fast:input $0.045/M、output $0.384/M
    • Llama 3.3 70B fp8-fast:input $0.293/M、output $2.253/M
    • GPT-OSS 120B:input $0.350/M、output $0.750/M
    • Kimi K2.6:input $0.95/M、cached input $0.16/M、output $4.00/M
    • BGE-large-en-v1.5:$0.204/M input
    • Whisper:$0.0005/audio min
    • FLUX-1-schnell:$0.0000528/512x512タイル + $0.0001056/step

CLI / IaC 操作例

wrangler.jsonc

{
  "name": "my-worker",
  "main": "src/index.ts",
  "compatibility_date": "2026-05-01",
  "ai": { "binding": "AI" }
}

Worker内呼び出し

export default {
  async fetch(req, env) {
    const res = await env.AI.run("@cf/meta/llama-3.1-8b-instruct-fp8-fast", {
      messages: [
        { role: "system", content: "あなたは簡潔に答えるアシスタントです。" },
        { role: "user", content: "Workers AIとは?" }
      ]
    });
    return Response.json(res);
  }
} satisfies ExportedHandler<{ AI: Ai }>;

Embeddings + Vectorize

const { data } = await env.AI.run("@cf/baai/bge-m3", { text: ["RAG用テキスト"] });
await env.VEC.insert([{ id: "1", values: data[0] }]);

REST API(外部から)

curl https://api.cloudflare.com/client/v4/accounts/$ACCOUNT/ai/run/@cf/meta/llama-3.1-8b-instruct \
  -H "Authorization: Bearer $TOKEN" \
  -d '{"prompt":"Hello"}'

制限・注意点

  • Rate Limit(task type別、デフォルト/分):
    • Text Generation:300(モデル別に150〜1500の例外あり)
    • Text Embeddings:3000(bge-large-en-v1.5は1500)
    • Text-to-Image:720(SD v1.5 img2imgは1500)
    • Automatic Speech Recognition / Translation / Image-to-Text:720
    • Image Classification / Object Detection:3000
    • Summarization:1500、Text Classification:2000
  • ローカル開発(wrangler dev)の推論もレート制限にカウントされる
  • Beta段階のモデルはレート制限が低い場合あり
  • 上限緩和・プライベートカスタムモデルはCustom Requirements Formで個別交渉
  • フロンティアモデル不在:高度な推論・長文context・最新ベンチ最強系は別系統が必要

AI Gateway との併用

Workers AIだけでフロンティアモデル要件を満たせない場合、AI Gateway をフロントに置きOpenAI/Anthropic/Bedrock/Vertex/Workers AIへルーティングする構成が定石。

  • キャッシュ(同一プロンプトの再利用でコスト削減)
  • レート制限・リトライ・モデルフォールバック(OpenAI障害時にWorkers AIへ自動切替)
  • ログ・分析・コスト可視化を一元化
  • Workers AI自体もAI Gatewayのrunオプションでgateway経由実行可能

典型構成: Workers → AI Gateway → (Workers AI / OpenAI / Anthropic) → Vectorize で記憶。

参考リンク


参照日: 2026-05-03