AI Tools 2026年4月18日

Gemini 3.1 Flash Live解説：リアルタイム音声会話を実現するストリーミングAPI

2026年3月26日リリースのGemini 3.1 Flash Liveを解説。低遅延リアルタイム音声会話・128Kトークンコンテキスト・セッション管理・function callingなど開発者向け情報を網羅。

#Gemini #Google #Flash Live #音声AI #リアルタイム #API

概要

Gemini 3.1 Flash Live（モデルID: gemini-3.1-flash-live-preview）は、2026年3月26日にGemini APIで公開されたリアルタイム音声対話特化モデルです。テキスト・画像・音声・動画を入力として受け付け、低遅延でストリーミング応答を返します。

前世代のGemini 2.0 Flash Live（2025年4月公開）で実証されたアーキテクチャをGemini 3.1ベースに刷新し、会話速度の向上とコンテキスト保持時間の2倍化を実現しています。

主要機能・仕様

入出力

項目	内容
入力モダリティ	テキスト・画像・音声・動画
出力	テキスト・音声（ストリーミング）
コンテキスト	128Kトークン

セッション制限

セッション種別	最大時間
音声のみ	15分
音声＋映像	2分

対応機能

function calling（同期のみ）
Search grounding（Google検索との連携）
多言語対応（日本語含む）
音声アクティビティ検出（発話区切りの自動検出）
セッション管理（コンテキスト圧縮による長期対話）

強み・注目ポイント

ターン制AI vs リアルタイムAIの違いが本モデルの核心です。通常のチャット型AIは「入力→処理→出力」を繰り返しますが、Flash Liveはストリーミング接続を維持して人間の会話速度に追従します。

音声面では複数の音声オプションと細かなアクティビティ検出設定が提供されており、カスタマーサポートBot・音声インターフェース・リアルタイム翻訳といったユースケースに対応できます。

開発者向けの使い方（概要）

import google.generativeai as genai

model = genai.GenerativeModel("gemini-3.1-flash-live-preview")
# WebSocketベースのセッションを確立してストリーミング

詳細なセッション管理・function calling設定は公式ドキュメントを参照してください。

他のリアルタイム音声AIとの比較

項目	Gemini 3.1 Flash Live	OpenAI Realtime API	Claude（音声モード）
入力	テキスト/画像/音声/動画	音声/テキスト	音声/テキスト
コンテキスト	128K	128K	最大200K
セッション時間	音声15分/映像2分	セッション制限あり	-
function calling	同期のみ	並列対応	対応
Search grounding	あり（Google検索）	なし	なし

概要