API で使える AI 画像生成サービス比較 - Nano Banana / GPT Image 2 / FLUX を実際に叩いて検証

API で使える AI 画像生成サービス比較 - Nano Banana / GPT Image 2 / FLUX を実際に叩いて検証

作成日:
更新日:

「API から画像を生成したいが、Nano Banana・GPT Image・FLUX のどれを使えばいいのか」——これは AI 画像生成を実務に組み込むときに必ずぶつかる問いです。そこで、実際に各社の API を同一プロンプトで叩いて比較検証しました。

この記事は、その検証で実際に確認できた事実(実測のトークン数・料金、生成結果の所感、API の挙動)をまとめたものです。料金は公式料金表+レスポンスの実測トークンから算出し、円換算は1ドル150円・検証は2026年6月時点のものです。AI 画像生成の API は更新が速いので、最新は各公式で確認してください。音声合成 API の比較は TTS API 比較も参考にどうぞ。

比較したサービスとアクセス経路

同じ「画像生成モデル」でも、どの経路(API)から叩くかで料金・返却形式・指定できるサイズが変わります。今回検証した経路はこの3つです。

アクセス経路エンドポイント検証で使ったモデル
Gemini API 直generativelanguage.googleapis.comgenerateContentgemini-2.5-flash-image(Nano Banana)、gemini-3-pro-image(Nano Banana Pro)
OpenAI API 直api.openai.com/v1/images/generationsgpt-image-2
fal.aifal.run/{モデル}(同期)/queue.fal.run(非同期)fal-ai/flux/schnellfal-ai/flux-2-proopenai/gpt-image-2

NOTE

ポイントは fal.ai が「1つのキーで多数のモデルを横断的に叩ける集約 API」だということ。検証時点で fal のモデル一覧 API には約1300のエンドポイントがあり、text-to-image だけでなく image-to-image・動画・音声・3D まで揃っていました。一方、同じ GPT Image 2 でも fal 経由と OpenAI 直で挙動が違う(後述)ので、用途で経路を選ぶ必要があります。

1枚あたりの料金(実測 + 公式料金表)

いちばん気になるコストです。各 API はトークン課金やメガピクセル課金で、レスポンスの usageusageMetadata から実費を計算できます。

モデル単価の根拠実測例円換算(150円)
Nano Banana(2.5-flash-image)画像出力 $30/100万トークン、1枚=1290トークン$0.039/枚約6円
Nano Banana Pro(3-pro-image)画像出力 $120/100万、1K/2K=1120トークン+思考トークン実測 $0.139(2K)約21円
Nano Banana 2(3.1-flash-image)※公式表のみ2K=$0.101、1K=$0.067-約15円/10円
GPT Image 2画像出力 $30/100万トークン(1024x1536: low $0.005 / medium $0.042 / high $0.165)実測 $0.165(1024x1536 high)、$0.18(1536x1088 high)約25〜27円
FLUX 2 Pro(fal)$0.03/最初の1MP+$0.015/追加MP(切り上げ)$0.045(1448x1024)、$0.075(1536x2048)約7〜11円
FLUX.1 dev(fal)※ページ記載$0.025/MP-約4円/MP

ざっくり言うと、初代 Nano Banana(約6円)と FLUX 系(約7〜11円)が安く、Nano Banana Pro(約21円)と GPT Image 2 high(約25円)がその倍以上。同じ品質帯でも、解像度と品質モードで単価が数倍変わります。

TIP

GPT Image 2 は qualitymedium にすると約$0.042(high の約1/4)。構図探しは medium で回し、本番だけ highにするとコスパが良い、というのは実務で効くテクニックでした。

速度・解像度・アスペクト比

  • 速度: 明確に速かったのは fal-ai/flux/schnell で推論0.43秒(API レスポンスの timings 実測)。GPT Image 2 は体感で明らかに遅め(未計測)
  • 解像度: Nano Banana Pro は 2K で 1792x2400 / 2528x1696 など大きめ。GPT Image 2 は 1024x1536 等の任意サイズだが縦横とも16の倍数が必須(外れると 400 エラー)。fal 経由の GPT Image 2 はプリセットサイズのみ(768x1024 など)。FLUX 2 Pro は任意 px 指定が可能
  • アスペクト比: Gemini はプリセット中心で、A4 比(1.414:1)のような端数は直接指定できず 3:2 や 4:3 で代用。OpenAI 直と fal の FLUX はほぼ任意

品質の所感(同一プロンプトでの比較)

同じプロンプト(人物・記事用ヒーロー画像など)を各モデルに通した、横並びの印象です。

  • FLUX 2 Pro: フォトリアルの質感が最高。肌・髪・唇のディテールは「実在の人を撮った写真」と言われて一番疑わないレベル。長文の詳細描写にも忠実。ただし構図がクローズアップに寄りがちで、「小首をかしげる」のようなニュアンス指示は弱め
  • Nano Banana Pro: 構図・背景・雰囲気づくりとデザインの整理感が最良。一方でレイアウト指示を独自解釈することがある(「カード4枚横並び」が 2x2 グリッドになった)
  • GPT Image 2: 抽象的な指示の解釈とレイアウトへの忠実性が最高。「愛くるしい」のような曖昧な指示を一番うまく汲み、インフォグラフィックの構成を唯一そのまま再現した
  • 初代 Nano Banana: 約6円にしては十分な品質。細部の精細さは Pro 系に劣る

日本語(CJK)テキスト描画 - ここが分かれ目

実務でいちばん効く差が出たのが画像内の日本語テキストです。

モデル日本語テキスト
GPT Image 2誤字ゼロ
Nano Banana Pro誤字ゼロ
FLUX 2 Pro明確に不適(崩れ多発)

FLUX 2 Pro は「コントラスト→コントスト」「か月→ヶ目」「参加型→寿加型」のような文字崩れと行重複が多発しました。FLUX はタイポグラフィ改善も売りにしていますが、公式サンプルも英字(ラテン文字)のみ。日本語テキストを画像に載せるなら GPT Image 2 か Nano Banana Pro の2強、というのがはっきりした結論です。

WARNING

「FLUX はテキストに強い」という英語圏の評判をそのまま日本語に当てはめると事故ります。CJK(日本語・中国語・韓国語)の文字描画は別問題で、今回の検証では FLUX は実用に耐えませんでした。バナーやインフォグラフィックなど文字入りデザインを作るなら、必ず日本語で試してから採用してください。

用途別の使い分け(結論)

用途第一候補
日本語テキスト入りデザイン・インフォグラフィックGPT Image 2(構成忠実)または Nano Banana Pro(デザイン性と価格)
フォトリアルな人物・物撮り・素材量産FLUX 系(品質同等以上で単価が半額以下)
大量下書き・高速試行flux/schnell(0.4秒)か初代 Nano Banana(約6円)
スタイル固定(LoRA)や動画・音声まで横断fal(1キーで多数モデル)

API を使う際の実務的な注意点

検証中に踏んだ「ハマりどころ」です。ここは公式ドキュメントだけだと気づきにくい部分でした。

  • fal は前払いクレジット制: 残高が0だと全 API 呼び出しが User is locked. Reason: Exhausted balance でロックされる。認証エラーではないので紛らわしい。$10 チャージで利用再開を確認
  • OpenAI の gpt-image 系は base64 返却: URL ではなく b64_json で返る。サイズは縦横とも16の倍数でないと 400 エラー
  • Gemini はアスペクト比の指定方法に癖: generationConfig.imageConfig.aspectRatio(v1beta)で指定。2K(imageSize)は Pro 系・3.1 系のみ。返却画像の mimeType は PNG とは限らない(Pro は JPEG で返った)。無料ティアのキーだと請求が発生していない場合があるので実請求はコンソールで要確認
  • 同じ GPT Image 2 でも経路で差: fal 経由は URL 返却・プリセットサイズのみ、OpenAI 直は base64・任意サイズ。品質検証は本家直、横断比較や請求一本化は fal、という使い分けが現実的
  • 費用はすべてレスポンスの usageusageMetadata のトークン数 × 公式単価で算出可能

おまけ: 「アイキャッチ用プロンプト」での相性

このブログのアイキャッチ生成にも関わる発見がありました。英語の様式指定プロンプト(座標でセーフゾーンを指定、文字描画なし)で3モデルを比べると、結果が日本語インフォグラフィックとは逆転しました。

  • FLUX 2 Pro: $0.045 で最安かつ、紙のグレイン質感や指定パレットの再現が最も忠実。文字なしの様式画像では第一候補
  • GPT Image 2: 仕様への適合が最も良好(確実性重視ならこれ)
  • Nano Banana Pro: 座標指定を「明るい内側の長方形」として律儀に描いてしまう失敗が出た。プロンプトに「VISIBLE AREA(ピクセル座標)」のような指定を入れると、それを画像内に可視化してしまうことがある

NOTE

座標やピクセル指定を含むプロンプトは、モデルによって「指示」ではなく「描くべき要素」と解釈されることがあります。Nano Banana Pro で枠が出てしまう場合は、座標の節を外して「中央70%に被写体を収める」程度の自然言語に直すと改善が見込めます。プロンプトとモデルの相性は、実際に叩いて確かめるのが確実です。

まとめ

  • API 画像生成は「どのモデルか」だけでなく「どの経路(Gemini直/OpenAI直/fal)か」で料金・返却形式・サイズが変わる
  • 料金(150円換算): 初代 Nano Banana 約6円・FLUX 系 約7〜11円が安く、Nano Banana Pro 約21円・GPT Image 2 high 約25円はその倍以上
  • 速度は flux/schnell が0.43秒と突出。解像度は Nano Banana Pro が大きめ、GPT Image 2 は16の倍数制約あり
  • 品質は FLUX=フォトリアル、Nano Banana Pro=構図・雰囲気、GPT Image 2=抽象指示とレイアウト忠実
  • 日本語テキストは GPT Image 2 / Nano Banana Pro の2強、FLUX は不適
  • 用途別: 文字入りデザイン→GPT Image/Nano Banana、フォトリアル量産→FLUX、高速大量→schnell/初代Nano Banana、横断→fal
  • 実務注意: fal の残高ロック、OpenAI の base64/16倍数、Gemini の mimeType ゆれ、経路ごとの機能差

「どれが一番か」ではなく、「何を作るかでモデルと経路を使い分ける」のが結論です。とくに日本語テキストの有無で答えが大きく変わるので、自分のユースケースで一度実際に叩いてみるのを強くおすすめします。

参考リンク