API で使える AI 画像生成サービス比較 - Nano Banana / GPT Image 2 / FLUX を実際に叩いて検証

「API から画像を生成したいが、Nano Banana・GPT Image・FLUX のどれを使えばいいのか」——これは AI 画像生成を実務に組み込むときに必ずぶつかる問いです。そこで、実際に各社の API を同一プロンプトで叩いて比較検証しました。

この記事は、その検証で実際に確認できた事実（実測のトークン数・料金、生成結果の所感、API の挙動）をまとめたものです。料金は公式料金表＋レスポンスの実測トークンから算出し、円換算は1ドル150円・検証は2026年6月時点のものです。AI 画像生成の API は更新が速いので、最新は各公式で確認してください。音声合成 API の比較は TTS API 比較も参考にどうぞ。

比較したサービスとアクセス経路

同じ「画像生成モデル」でも、どの経路（API）から叩くかで料金・返却形式・指定できるサイズが変わります。今回検証した経路はこの3つです。

アクセス経路	エンドポイント	検証で使ったモデル
Gemini API 直	`generativelanguage.googleapis.com`（`generateContent`）	`gemini-2.5-flash-image`（Nano Banana）、`gemini-3-pro-image`（Nano Banana Pro）
OpenAI API 直	`api.openai.com/v1/images/generations`	`gpt-image-2`
fal.ai	`fal.run/{モデル}`（同期）／`queue.fal.run`（非同期）	`fal-ai/flux/schnell`、`fal-ai/flux-2-pro`、`openai/gpt-image-2`

NOTE

ポイントは fal.ai が「1つのキーで多数のモデルを横断的に叩ける集約 API」だということ。検証時点で fal のモデル一覧 API には約1300のエンドポイントがあり、text-to-image だけでなく image-to-image・動画・音声・3D まで揃っていました。一方、同じ GPT Image 2 でも fal 経由と OpenAI 直で挙動が違う（後述）ので、用途で経路を選ぶ必要があります。

1枚あたりの料金（実測 + 公式料金表）

いちばん気になるコストです。各 API はトークン課金やメガピクセル課金で、レスポンスの usage／usageMetadata から実費を計算できます。

モデル	単価の根拠	実測例	円換算（150円）
Nano Banana（2.5-flash-image）	画像出力 $30/100万トークン、1枚=1290トークン	$0.039/枚	約6円
Nano Banana Pro（3-pro-image）	画像出力 $120/100万、1K/2K=1120トークン＋思考トークン	実測 $0.139（2K）	約21円
Nano Banana 2（3.1-flash-image）※公式表のみ	2K=$0.101、1K=$0.067	-	約15円／10円
GPT Image 2	画像出力 $30/100万トークン（1024x1536: low $0.005 / medium $0.042 / high $0.165）	実測 $0.165（1024x1536 high）、$0.18（1536x1088 high）	約25〜27円
FLUX 2 Pro（fal）	$0.03/最初の1MP＋$0.015/追加MP（切り上げ）	$0.045（1448x1024）、$0.075（1536x2048）	約7〜11円
FLUX.1 dev（fal）※ページ記載	$0.025/MP	-	約4円/MP

ざっくり言うと、初代 Nano Banana（約6円）と FLUX 系（約7〜11円）が安く、Nano Banana Pro（約21円）と GPT Image 2 high（約25円）がその倍以上。同じ品質帯でも、解像度と品質モードで単価が数倍変わります。

TIP

GPT Image 2 は quality を medium にすると約$0.042（high の約1/4）。構図探しは medium で回し、本番だけ highにするとコスパが良い、というのは実務で効くテクニックでした。

速度・解像度・アスペクト比

速度: 明確に速かったのは fal-ai/flux/schnell で推論0.43秒（API レスポンスの timings 実測）。GPT Image 2 は体感で明らかに遅め（未計測）
解像度: Nano Banana Pro は 2K で 1792x2400 / 2528x1696 など大きめ。GPT Image 2 は 1024x1536 等の任意サイズだが縦横とも16の倍数が必須（外れると 400 エラー）。fal 経由の GPT Image 2 はプリセットサイズのみ（768x1024 など）。FLUX 2 Pro は任意 px 指定が可能
アスペクト比: Gemini はプリセット中心で、A4 比（1.414:1）のような端数は直接指定できず 3:2 や 4:3 で代用。OpenAI 直と fal の FLUX はほぼ任意

品質の所感（同一プロンプトでの比較）

同じプロンプト（人物・記事用ヒーロー画像など）を各モデルに通した、横並びの印象です。

FLUX 2 Pro: フォトリアルの質感が最高。肌・髪・唇のディテールは「実在の人を撮った写真」と言われて一番疑わないレベル。長文の詳細描写にも忠実。ただし構図がクローズアップに寄りがちで、「小首をかしげる」のようなニュアンス指示は弱め
Nano Banana Pro: 構図・背景・雰囲気づくりとデザインの整理感が最良。一方でレイアウト指示を独自解釈することがある（「カード4枚横並び」が 2x2 グリッドになった）
GPT Image 2: 抽象的な指示の解釈とレイアウトへの忠実性が最高。「愛くるしい」のような曖昧な指示を一番うまく汲み、インフォグラフィックの構成を唯一そのまま再現した
初代 Nano Banana: 約6円にしては十分な品質。細部の精細さは Pro 系に劣る

日本語（CJK）テキスト描画 - ここが分かれ目

実務でいちばん効く差が出たのが画像内の日本語テキストです。

モデル	日本語テキスト
GPT Image 2	誤字ゼロ
Nano Banana Pro	誤字ゼロ
FLUX 2 Pro	明確に不適（崩れ多発）

FLUX 2 Pro は「コントラスト→コントスト」「か月→ヶ目」「参加型→寿加型」のような文字崩れと行重複が多発しました。FLUX はタイポグラフィ改善も売りにしていますが、公式サンプルも英字（ラテン文字）のみ。日本語テキストを画像に載せるなら GPT Image 2 か Nano Banana Pro の2強、というのがはっきりした結論です。

WARNING

「FLUX はテキストに強い」という英語圏の評判をそのまま日本語に当てはめると事故ります。CJK（日本語・中国語・韓国語）の文字描画は別問題で、今回の検証では FLUX は実用に耐えませんでした。バナーやインフォグラフィックなど文字入りデザインを作るなら、必ず日本語で試してから採用してください。

用途別の使い分け（結論）

用途	第一候補
日本語テキスト入りデザイン・インフォグラフィック	GPT Image 2（構成忠実）または Nano Banana Pro（デザイン性と価格）
フォトリアルな人物・物撮り・素材量産	FLUX 系（品質同等以上で単価が半額以下）
大量下書き・高速試行	flux/schnell（0.4秒）か初代 Nano Banana（約6円）
スタイル固定（LoRA）や動画・音声まで横断	fal（1キーで多数モデル）

API を使う際の実務的な注意点

検証中に踏んだ「ハマりどころ」です。ここは公式ドキュメントだけだと気づきにくい部分でした。

fal は前払いクレジット制: 残高が0だと全 API 呼び出しが User is locked. Reason: Exhausted balance でロックされる。認証エラーではないので紛らわしい。$10 チャージで利用再開を確認
OpenAI の gpt-image 系は base64 返却: URL ではなく b64_json で返る。サイズは縦横とも16の倍数でないと 400 エラー
Gemini はアスペクト比の指定方法に癖: generationConfig.imageConfig.aspectRatio（v1beta）で指定。2K（imageSize）は Pro 系・3.1 系のみ。返却画像の mimeType は PNG とは限らない（Pro は JPEG で返った）。無料ティアのキーだと請求が発生していない場合があるので実請求はコンソールで要確認
同じ GPT Image 2 でも経路で差: fal 経由は URL 返却・プリセットサイズのみ、OpenAI 直は base64・任意サイズ。品質検証は本家直、横断比較や請求一本化は fal、という使い分けが現実的
費用はすべてレスポンスの usage／usageMetadata のトークン数 × 公式単価で算出可能

おまけ: 「アイキャッチ用プロンプト」での相性

このブログのアイキャッチ生成にも関わる発見がありました。英語の様式指定プロンプト（座標でセーフゾーンを指定、文字描画なし）で3モデルを比べると、結果が日本語インフォグラフィックとは逆転しました。

FLUX 2 Pro: $0.045 で最安かつ、紙のグレイン質感や指定パレットの再現が最も忠実。文字なしの様式画像では第一候補
GPT Image 2: 仕様への適合が最も良好（確実性重視ならこれ）
Nano Banana Pro: 座標指定を「明るい内側の長方形」として律儀に描いてしまう失敗が出た。プロンプトに「VISIBLE AREA（ピクセル座標）」のような指定を入れると、それを画像内に可視化してしまうことがある

NOTE

座標やピクセル指定を含むプロンプトは、モデルによって「指示」ではなく「描くべき要素」と解釈されることがあります。Nano Banana Pro で枠が出てしまう場合は、座標の節を外して「中央70%に被写体を収める」程度の自然言語に直すと改善が見込めます。プロンプトとモデルの相性は、実際に叩いて確かめるのが確実です。

まとめ

API 画像生成は「どのモデルか」だけでなく「どの経路（Gemini直/OpenAI直/fal）か」で料金・返却形式・サイズが変わる
料金（150円換算）: 初代 Nano Banana 約6円・FLUX 系約7〜11円が安く、Nano Banana Pro 約21円・GPT Image 2 high 約25円はその倍以上
速度は flux/schnell が0.43秒と突出。解像度は Nano Banana Pro が大きめ、GPT Image 2 は16の倍数制約あり
品質は FLUX=フォトリアル、Nano Banana Pro=構図・雰囲気、GPT Image 2=抽象指示とレイアウト忠実
日本語テキストは GPT Image 2 / Nano Banana Pro の2強、FLUX は不適
用途別: 文字入りデザイン→GPT Image/Nano Banana、フォトリアル量産→FLUX、高速大量→schnell/初代Nano Banana、横断→fal
実務注意: fal の残高ロック、OpenAI の base64/16倍数、Gemini の mimeType ゆれ、経路ごとの機能差

「どれが一番か」ではなく、「何を作るかでモデルと経路を使い分ける」のが結論です。とくに日本語テキストの有無で答えが大きく変わるので、自分のユースケースで一度実際に叩いてみるのを強くおすすめします。

API で使える AI 画像生成サービス比較 - Nano Banana / GPT Image 2 / FLUX を実際に叩いて検証

比較したサービスとアクセス経路

1枚あたりの料金（実測 + 公式料金表）

速度・解像度・アスペクト比

品質の所感（同一プロンプトでの比較）

日本語（CJK）テキスト描画 - ここが分かれ目

用途別の使い分け（結論）

API を使う際の実務的な注意点

おまけ: 「アイキャッチ用プロンプト」での相性

まとめ

参考リンク

Gemini 3.6 Flash 最新事情 - 3.5 Flash-Lite / Flash Cyber 同時発表と Gemini 4 予告

Claude の advisor tool 入門 - 速いexecutorモデルに賢いadvisorモデルの助言を挟むツール使用パターン

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化（Pro はプレビュー）

比較したサービスとアクセス経路

1枚あたりの料金（実測 + 公式料金表）

速度・解像度・アスペクト比

品質の所感（同一プロンプトでの比較）

日本語（CJK）テキスト描画 - ここが分かれ目

用途別の使い分け（結論）

API を使う際の実務的な注意点

おまけ: 「アイキャッチ用プロンプト」での相性

まとめ

参考リンク

関連記事

Gemini 3.6 Flash 最新事情 - 3.5 Flash-Lite / Flash Cyber 同時発表と Gemini 4 予告

Claude の advisor tool 入門 - 速いexecutorモデルに賢いadvisorモデルの助言を挟むツール使用パターン

Gemini 3.5 Flash - 高速・低価格でコーディングとエージェントを強化（Pro はプレビュー）