
Gemini 3.1 Flash Live と Flash TTS まとめ — リアルタイム音声AIが本格普及フェーズへ
2026年3〜4月、Google は音声AIまわりで2つの大型リリースを行いました。
- 2026年3月26日:Gemini 3.1 Flash Live(低レイテンシのマルチモーダル音声モデル)
- 2026年4月15日:Gemini 3.1 Flash TTS(新世代のテキスト読み上げモデル)
「リアルタイムに会話するAI」「自然な多言語音声を生成するAI」のどちらも、ようやく プロダクション運用に耐える品質と運用性 が揃ってきた印象です。
この記事では、両モデルのポイントと使い分け、実際の利用方法をまとめます。
Gemini 3.1 Flash Live — リアルタイム音声マルチモーダル
概要
| 項目 | 内容 |
|---|---|
| リリース日 | 2026年3月26日 |
| 入出力 | 音声・映像・テキスト同時処理 |
| 対応言語 | 90以上 |
| 特徴 | 低レイテンシ、ツール呼び出し対応、エージェント向け |
「話しながら、見せながら、ツールを呼ぶ」が同じセッションで自然に行えるモデルです。
前世代(Gemini 2.5 Flash Native Audio)からの強化点
- レイテンシと音質の改善
- ピッチ・ペースなどの 音響的ニュアンス の認識精度向上
- 実環境ノイズフィルタリングの大幅強化
- 会話メモリ長が 倍増、長時間セッションが安定
- システムプロンプトの遵守度向上
実用面では「カフェの中でもまともに聞き取ってくれる」「1時間続く打ち合わせの議事録ボットが現実的」というレベル感です。
Gemini Live / Search Live との連携
このモデルは、Gemini Live(音声でGeminiと会話する体験)と Search Live(音声+カメラで検索)を 200カ国以上 にロールアウトする原動力になっています。Google レンズと連携した「カメラに映ったものを声で質問する」ユースケースも、ここから大幅に強化されました。
想定するユースケース
- 通話・会議の リアルタイムアシスタント
- 教育・学習用の 対話型チューター
- 見守り・サポート系の 音声インターフェース
- 店頭・受付の 音声+映像対応エージェント
Gemini 3.1 Flash TTS — 新世代の表現力豊かなTTS
概要
| 項目 | 内容 |
|---|---|
| リリース日 | 2026年4月15日 |
| 対応言語 | 70以上 |
| ベンチマーク | Artificial Analysis TTSリーダーボード Eloスコア 1,211 |
| 特徴 | マルチスピーカー対話、自然言語による音声制御、SynthID透かし |
注目ポイント
1. 自然言語で音声をコントロールできる
「ささやくように」「ゆっくり、丁寧に」「少し驚いた感じで」というような指示を 自然言語のオーディオタグ として与えられます。SSMLを書かずにスタイル制御できる点が大きな利点。
[whispering] そっと教えて。
[excited] やっと届いた、夢のチケット!
[calm, slow] 深呼吸をしてから、続けましょう。2. ネイティブのマルチスピーカー対話
複数話者が交互に話す音声を、1リクエストで自然な抑揚 つきで生成できます。物語や教材、podcast 用途で強い。
3. SynthID 透かしの埋め込み
生成された音声には人間には知覚できない SynthID 透かし が埋め込まれます。AI生成音声の検証・流出対策として、運用上もメリット大。
4. ベンチマーク Elo 1,211 の品質
Artificial Analysis のTTSリーダーボードで Elo 1,211 を獲得。商用TTSの中でも上位の自然さを保証する数字です。
使い方の最小例
Flash Live を Realtime セッションで呼ぶ(イメージ)
import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI(process.env.GOOGLE_API_KEY!);
const live = genAI.getGenerativeModel({
model: "gemini-3.1-flash-live",
});
const session = await live.startLiveSession({
responseModalities: ["AUDIO"],
systemInstruction: "あなたは丁寧な音声アシスタントです。",
});
session.on("audio", (chunk) => playAudio(chunk));
session.sendAudio(microphoneStream);Flash TTS を REST から呼ぶ(イメージ)
curl https://generativelanguage.googleapis.com/v1beta/models/gemini-3.1-flash-tts:generateContent \
-H "x-goog-api-key: $GOOGLE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{ "text": "[calm, slow] 深呼吸をしてから、続けましょう。" }]
}],
"generationConfig": {
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": { "prebuiltVoiceConfig": { "voiceName": "Aoede" } }
}
}
}'戻り値は音声バイト列(PCM/Opusなど、設定による)です。前回 TTS API比較記事 でも触れたように、Gemini系のTTSは PCM 出力時にWAVヘッダを付与するなどの処理が必要なケースがあります。
どちらを使うか — 用途別の選び方
| シーン | 推奨モデル |
|---|---|
| 双方向のリアルタイム対話(音声+カメラ) | Flash Live |
| 録音/録画音声の自動応答 | Flash Live |
| 物語・解説などの 再生用音声生成 | Flash TTS |
| 多言語ナレーション・教材音声 | Flash TTS |
| 音声メモ/議事録要約 | Flash Live + 別モデル |
「話す体験」=Flash Live、「読み上げ体験」=Flash TTS、というシンプルな使い分けが分かりやすいです。
競合との関係
- OpenAI Realtime API:speech-to-speech に強み、関数呼び出し対応で安定
- ElevenLabs:TTSの表現力に特化、ボイスクローン対応
- Google Gemini 3.1 Flash Live / TTS:マルチモーダル+多言語+SynthIDで優位
「マルチモーダル × 多言語 × Google エコシステムへの統合」という条件では、現時点では Gemini 系列が一歩抜けた印象です。
まとめ
- 2026年3月26日 Gemini 3.1 Flash Live:リアルタイム音声マルチモーダル
- 2026年4月15日 Gemini 3.1 Flash TTS:表現力豊かなTTSと自然言語スタイル制御
- いずれも 多言語・低レイテンシ・SynthID対応 で運用面の心配が大きく減った
- リアルタイム対話 → Flash Live、生成音声 → Flash TTS の使い分けが自然
- 音声AIは「実験」から「プロダクション運用フェーズ」へ
過去に書いた Gemini TTS / Google Cloud TTS 比較記事 の頃と比べても、世代交代のテンポが一段速くなっています。