Gemini 3.1 Flash Live と Flash TTS まとめ — リアルタイム音声AIが本格普及フェーズへ

2026年3〜4月、Google は音声AIまわりで2つの大型リリースを行いました。

2026年3月26日：Gemini 3.1 Flash Live（低レイテンシのマルチモーダル音声モデル）
2026年4月15日：Gemini 3.1 Flash TTS（新世代のテキスト読み上げモデル）

「リアルタイムに会話するAI」「自然な多言語音声を生成するAI」のどちらも、ようやく プロダクション運用に耐える品質と運用性 が揃ってきた印象です。

この記事では、両モデルのポイントと使い分け、実際の利用方法をまとめます。

Gemini 3.1 Flash Live — リアルタイム音声マルチモーダル

概要

項目	内容
リリース日	2026年3月26日
入出力	音声・映像・テキスト同時処理
対応言語	90以上
特徴	低レイテンシ、ツール呼び出し対応、エージェント向け

「話しながら、見せながら、ツールを呼ぶ」が同じセッションで自然に行えるモデルです。

前世代（Gemini 2.5 Flash Native Audio）からの強化点

レイテンシと音質の改善
ピッチ・ペースなどの 音響的ニュアンス の認識精度向上
実環境ノイズフィルタリングの大幅強化
会話メモリ長が倍増、長時間セッションが安定
システムプロンプトの遵守度向上

実用面では「カフェの中でもまともに聞き取ってくれる」「1時間続く打ち合わせの議事録ボットが現実的」というレベル感です。

Gemini Live / Search Live との連携

このモデルは、Gemini Live（音声でGeminiと会話する体験）と Search Live（音声＋カメラで検索）を 200カ国以上 にロールアウトする原動力になっています。Google レンズと連携した「カメラに映ったものを声で質問する」ユースケースも、ここから大幅に強化されました。

想定するユースケース

通話・会議の リアルタイムアシスタント
教育・学習用の 対話型チューター
見守り・サポート系の 音声インターフェース
店頭・受付の 音声＋映像対応エージェント

Gemini 3.1 Flash TTS — 新世代の表現力豊かなTTS

概要

項目	内容
リリース日	2026年4月15日
対応言語	70以上
ベンチマーク	Artificial Analysis TTSリーダーボード Eloスコア 1,211
特徴	マルチスピーカー対話、自然言語による音声制御、SynthID透かし

注目ポイント

1. 自然言語で音声をコントロールできる

「ささやくように」「ゆっくり、丁寧に」「少し驚いた感じで」というような指示を 自然言語のオーディオタグ として与えられます。SSMLを書かずにスタイル制御できる点が大きな利点。

指示例

[whispering] そっと教えて。
[excited] やっと届いた、夢のチケット！
[calm, slow] 深呼吸をしてから、続けましょう。

2. ネイティブのマルチスピーカー対話

複数話者が交互に話す音声を、1リクエストで自然な抑揚 つきで生成できます。物語や教材、podcast 用途で強い。

3. SynthID 透かしの埋め込み

生成された音声には人間には知覚できない SynthID 透かし が埋め込まれます。AI生成音声の検証・流出対策として、運用上もメリット大。

4. ベンチマーク Elo 1,211 の品質

Artificial Analysis のTTSリーダーボードで Elo 1,211 を獲得。商用TTSの中でも上位の自然さを保証する数字です。

使い方の最小例

Flash Live を Realtime セッションで呼ぶ（イメージ）

Gemini Live API のクライアント例（イメージ）

import { GoogleGenerativeAI } from "@google/generative-ai";
 
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY!);
 
const live = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live",
});
 
const session = await live.startLiveSession({
  responseModalities: ["AUDIO"],
  systemInstruction: "あなたは丁寧な音声アシスタントです。",
});
 
session.on("audio", (chunk) => playAudio(chunk));
session.sendAudio(microphoneStream);

Flash TTS を REST から呼ぶ（イメージ）

cURL での生成例（イメージ）

curl https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-tts:generateContent \
  -H "x-goog-api-key: $GOOGLE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{ "text": "[calm, slow] 深呼吸をしてから、続けましょう。" }]
    }],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": { "prebuiltVoiceConfig": { "voiceName": "Aoede" } }
      }
    }
  }'

戻り値は音声バイト列（PCM/Opusなど、設定による）です。前回 TTS API比較記事でも触れたように、Gemini系のTTSは PCM 出力時にWAVヘッダを付与するなどの処理が必要なケースがあります。

どちらを使うか — 用途別の選び方

シーン	推奨モデル
双方向のリアルタイム対話（音声＋カメラ）	Flash Live
録音／録画音声の自動応答	Flash Live
物語・解説などの再生用音声生成	Flash TTS
多言語ナレーション・教材音声	Flash TTS
音声メモ／議事録要約	Flash Live ＋別モデル

「話す体験」=Flash Live、「読み上げ体験」=Flash TTS、というシンプルな使い分けが分かりやすいです。

競合との関係

OpenAI Realtime API：speech-to-speech に強み、関数呼び出し対応で安定
ElevenLabs：TTSの表現力に特化、ボイスクローン対応
Google Gemini 3.1 Flash Live / TTS：マルチモーダル＋多言語＋SynthIDで優位

「マルチモーダル × 多言語 × Google エコシステムへの統合」という条件では、現時点では Gemini 系列が一歩抜けた印象です。

まとめ

2026年3月26日 Gemini 3.1 Flash Live：リアルタイム音声マルチモーダル
2026年4月15日 Gemini 3.1 Flash TTS：表現力豊かなTTSと自然言語スタイル制御
いずれも 多言語・低レイテンシ・SynthID対応 で運用面の心配が大きく減った
リアルタイム対話 → Flash Live、生成音声 → Flash TTS の使い分けが自然
音声AIは「実験」から「プロダクション運用フェーズ」へ

過去に書いた Gemini TTS / Google Cloud TTS 比較記事の頃と比べても、世代交代のテンポが一段速くなっています。

Gemini 3.1 Flash Live と Flash TTS まとめ — リアルタイム音声AIが本格普及フェーズへ

Gemini 3.1 Flash Live — リアルタイム音声マルチモーダル

概要

前世代（Gemini 2.5 Flash Native Audio）からの強化点

Gemini Live / Search Live との連携

想定するユースケース

Gemini 3.1 Flash TTS — 新世代の表現力豊かなTTS

概要

注目ポイント

1. 自然言語で音声をコントロールできる

2. ネイティブのマルチスピーカー対話

3. SynthID 透かしの埋め込み

4. ベンチマーク Elo 1,211 の品質

使い方の最小例

Flash Live を Realtime セッションで呼ぶ（イメージ）

Flash TTS を REST から呼ぶ（イメージ）

どちらを使うか — 用途別の選び方

競合との関係

まとめ

参考リンク

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化（Pro はプレビュー）

Google I/O 2026 開発者視点まとめ - Antigravity 2.0、Gemini 3.5 Flash、Managed Agents、AI Studio の Android 対応

Gemini CLI 終了、Antigravity CLI へ移行 - 何が変わり、何に注意すべきか

Gemini 3.1 Flash Live — リアルタイム音声マルチモーダル

概要

前世代（Gemini 2.5 Flash Native Audio）からの強化点

Gemini Live / Search Live との連携

想定するユースケース

Gemini 3.1 Flash TTS — 新世代の表現力豊かなTTS

概要

注目ポイント

1. 自然言語で音声をコントロールできる

2. ネイティブのマルチスピーカー対話

3. SynthID 透かしの埋め込み

4. ベンチマーク Elo 1,211 の品質

使い方の最小例

Flash Live を Realtime セッションで呼ぶ（イメージ）

Flash TTS を REST から呼ぶ（イメージ）

どちらを使うか — 用途別の選び方

競合との関係

まとめ

参考リンク

関連記事

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化（Pro はプレビュー）

Google I/O 2026 開発者視点まとめ - Antigravity 2.0、Gemini 3.5 Flash、Managed Agents、AI Studio の Android 対応

Gemini CLI 終了、Antigravity CLI へ移行 - 何が変わり、何に注意すべきか