Gemini 3.1 Flash Live と Flash TTS まとめ — リアルタイム音声AIが本格普及フェーズへ

Gemini 3.1 Flash Live と Flash TTS まとめ — リアルタイム音声AIが本格普及フェーズへ

作成日:
更新日:

2026年3〜4月、Google は音声AIまわりで2つの大型リリースを行いました。

  • 2026年3月26日:Gemini 3.1 Flash Live(低レイテンシのマルチモーダル音声モデル)
  • 2026年4月15日:Gemini 3.1 Flash TTS(新世代のテキスト読み上げモデル)

「リアルタイムに会話するAI」「自然な多言語音声を生成するAI」のどちらも、ようやく プロダクション運用に耐える品質と運用性 が揃ってきた印象です。

この記事では、両モデルのポイントと使い分け、実際の利用方法をまとめます。

Gemini 3.1 Flash Live — リアルタイム音声マルチモーダル

概要

項目内容
リリース日2026年3月26日
入出力音声・映像・テキスト同時処理
対応言語90以上
特徴低レイテンシ、ツール呼び出し対応、エージェント向け

話しながら、見せながら、ツールを呼ぶ」が同じセッションで自然に行えるモデルです。

前世代(Gemini 2.5 Flash Native Audio)からの強化点

  • レイテンシと音質の改善
  • ピッチ・ペースなどの 音響的ニュアンス の認識精度向上
  • 実環境ノイズフィルタリングの大幅強化
  • 会話メモリ長が 倍増、長時間セッションが安定
  • システムプロンプトの遵守度向上

実用面では「カフェの中でもまともに聞き取ってくれる」「1時間続く打ち合わせの議事録ボットが現実的」というレベル感です。

Gemini Live / Search Live との連携

このモデルは、Gemini Live(音声でGeminiと会話する体験)と Search Live(音声+カメラで検索)を 200カ国以上 にロールアウトする原動力になっています。Google レンズと連携した「カメラに映ったものを声で質問する」ユースケースも、ここから大幅に強化されました。

想定するユースケース

  • 通話・会議の リアルタイムアシスタント
  • 教育・学習用の 対話型チューター
  • 見守り・サポート系の 音声インターフェース
  • 店頭・受付の 音声+映像対応エージェント

Gemini 3.1 Flash TTS — 新世代の表現力豊かなTTS

概要

項目内容
リリース日2026年4月15日
対応言語70以上
ベンチマークArtificial Analysis TTSリーダーボード Eloスコア 1,211
特徴マルチスピーカー対話、自然言語による音声制御、SynthID透かし

注目ポイント

1. 自然言語で音声をコントロールできる

「ささやくように」「ゆっくり、丁寧に」「少し驚いた感じで」というような指示を 自然言語のオーディオタグ として与えられます。SSMLを書かずにスタイル制御できる点が大きな利点。

指示例
[whispering] そっと教えて。
[excited] やっと届いた、夢のチケット!
[calm, slow] 深呼吸をしてから、続けましょう。

2. ネイティブのマルチスピーカー対話

複数話者が交互に話す音声を、1リクエストで自然な抑揚 つきで生成できます。物語や教材、podcast 用途で強い。

3. SynthID 透かしの埋め込み

生成された音声には人間には知覚できない SynthID 透かし が埋め込まれます。AI生成音声の検証・流出対策として、運用上もメリット大。

4. ベンチマーク Elo 1,211 の品質

Artificial Analysis のTTSリーダーボードで Elo 1,211 を獲得。商用TTSの中でも上位の自然さを保証する数字です。

使い方の最小例

Flash Live を Realtime セッションで呼ぶ(イメージ)

Gemini Live API のクライアント例(イメージ)
import { GoogleGenerativeAI } from "@google/generative-ai";
 
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY!);
 
const live = genAI.getGenerativeModel({
  model: "gemini-3.1-flash-live",
});
 
const session = await live.startLiveSession({
  responseModalities: ["AUDIO"],
  systemInstruction: "あなたは丁寧な音声アシスタントです。",
});
 
session.on("audio", (chunk) => playAudio(chunk));
session.sendAudio(microphoneStream);

Flash TTS を REST から呼ぶ(イメージ)

cURL での生成例(イメージ)
curl https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-tts:generateContent \
  -H "x-goog-api-key: $GOOGLE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{ "text": "[calm, slow] 深呼吸をしてから、続けましょう。" }]
    }],
    "generationConfig": {
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": { "prebuiltVoiceConfig": { "voiceName": "Aoede" } }
      }
    }
  }'

戻り値は音声バイト列(PCM/Opusなど、設定による)です。前回 TTS API比較記事 でも触れたように、Gemini系のTTSは PCM 出力時にWAVヘッダを付与するなどの処理が必要なケースがあります。

どちらを使うか — 用途別の選び方

シーン推奨モデル
双方向のリアルタイム対話(音声+カメラ)Flash Live
録音/録画音声の自動応答Flash Live
物語・解説などの 再生用音声生成Flash TTS
多言語ナレーション・教材音声Flash TTS
音声メモ/議事録要約Flash Live + 別モデル

話す体験」=Flash Live、「読み上げ体験」=Flash TTS、というシンプルな使い分けが分かりやすいです。

競合との関係

  • OpenAI Realtime API:speech-to-speech に強み、関数呼び出し対応で安定
  • ElevenLabs:TTSの表現力に特化、ボイスクローン対応
  • Google Gemini 3.1 Flash Live / TTS:マルチモーダル+多言語+SynthIDで優位

「マルチモーダル × 多言語 × Google エコシステムへの統合」という条件では、現時点では Gemini 系列が一歩抜けた印象です。

まとめ

  • 2026年3月26日 Gemini 3.1 Flash Live:リアルタイム音声マルチモーダル
  • 2026年4月15日 Gemini 3.1 Flash TTS:表現力豊かなTTSと自然言語スタイル制御
  • いずれも 多言語・低レイテンシ・SynthID対応 で運用面の心配が大きく減った
  • リアルタイム対話 → Flash Live、生成音声 → Flash TTS の使い分けが自然
  • 音声AIは「実験」から「プロダクション運用フェーズ」へ

過去に書いた Gemini TTS / Google Cloud TTS 比較記事 の頃と比べても、世代交代のテンポが一段速くなっています。

参考リンク