AI Tools 2026年4月18日

Gemini 3.1 Flash Live解説:リアルタイム音声会話を実現するストリーミングAPI

2026年3月26日リリースのGemini 3.1 Flash Liveを解説。低遅延リアルタイム音声会話・128Kトークンコンテキスト・セッション管理・function callingなど開発者向け情報を網羅。

概要

Gemini 3.1 Flash Live(モデルID: gemini-3.1-flash-live-preview)は、2026年3月26日にGemini APIで公開されたリアルタイム音声対話特化モデルです。テキスト・画像・音声・動画を入力として受け付け、低遅延でストリーミング応答を返します。

前世代のGemini 2.0 Flash Live(2025年4月公開)で実証されたアーキテクチャをGemini 3.1ベースに刷新し、会話速度の向上とコンテキスト保持時間の2倍化を実現しています。


主要機能・仕様

入出力

項目内容
入力モダリティテキスト・画像・音声・動画
出力テキスト・音声(ストリーミング)
コンテキスト128Kトークン

セッション制限

セッション種別最大時間
音声のみ15分
音声+映像2分

対応機能

  • function calling(同期のみ)
  • Search grounding(Google検索との連携)
  • 多言語対応(日本語含む)
  • 音声アクティビティ検出(発話区切りの自動検出)
  • セッション管理(コンテキスト圧縮による長期対話)

強み・注目ポイント

ターン制AI vs リアルタイムAIの違いが本モデルの核心です。通常のチャット型AIは「入力→処理→出力」を繰り返しますが、Flash Liveはストリーミング接続を維持して人間の会話速度に追従します。

音声面では複数の音声オプションと細かなアクティビティ検出設定が提供されており、カスタマーサポートBot・音声インターフェース・リアルタイム翻訳といったユースケースに対応できます。


開発者向けの使い方(概要)

import google.generativeai as genai

model = genai.GenerativeModel("gemini-3.1-flash-live-preview")
# WebSocketベースのセッションを確立してストリーミング

詳細なセッション管理・function calling設定は 公式ドキュメント を参照してください。


他のリアルタイム音声AIとの比較

項目Gemini 3.1 Flash LiveOpenAI Realtime APIClaude(音声モード)
入力テキスト/画像/音声/動画音声/テキスト音声/テキスト
コンテキスト128K128K最大200K
セッション時間音声15分/映像2分セッション制限あり-
function calling同期のみ並列対応対応
Search groundingあり(Google検索)なしなし

参考リンク