
API で使える AI 画像生成サービス比較 - Nano Banana / GPT Image 2 / FLUX を実際に叩いて検証
「API から画像を生成したいが、Nano Banana・GPT Image・FLUX のどれを使えばいいのか」——これは AI 画像生成を実務に組み込むときに必ずぶつかる問いです。そこで、実際に各社の API を同一プロンプトで叩いて比較検証しました。
この記事は、その検証で実際に確認できた事実(実測のトークン数・料金、生成結果の所感、API の挙動)をまとめたものです。料金は公式料金表+レスポンスの実測トークンから算出し、円換算は1ドル150円・検証は2026年6月時点のものです。AI 画像生成の API は更新が速いので、最新は各公式で確認してください。音声合成 API の比較は TTS API 比較も参考にどうぞ。
比較したサービスとアクセス経路
同じ「画像生成モデル」でも、どの経路(API)から叩くかで料金・返却形式・指定できるサイズが変わります。今回検証した経路はこの3つです。
| アクセス経路 | エンドポイント | 検証で使ったモデル |
|---|---|---|
| Gemini API 直 | generativelanguage.googleapis.com(generateContent) | gemini-2.5-flash-image(Nano Banana)、gemini-3-pro-image(Nano Banana Pro) |
| OpenAI API 直 | api.openai.com/v1/images/generations | gpt-image-2 |
| fal.ai | fal.run/{モデル}(同期)/queue.fal.run(非同期) | fal-ai/flux/schnell、fal-ai/flux-2-pro、openai/gpt-image-2 |
NOTE
ポイントは fal.ai が「1つのキーで多数のモデルを横断的に叩ける集約 API」だということ。検証時点で fal のモデル一覧 API には約1300のエンドポイントがあり、text-to-image だけでなく image-to-image・動画・音声・3D まで揃っていました。一方、同じ GPT Image 2 でも fal 経由と OpenAI 直で挙動が違う(後述)ので、用途で経路を選ぶ必要があります。
1枚あたりの料金(実測 + 公式料金表)
いちばん気になるコストです。各 API はトークン課金やメガピクセル課金で、レスポンスの usage/usageMetadata から実費を計算できます。
| モデル | 単価の根拠 | 実測例 | 円換算(150円) |
|---|---|---|---|
| Nano Banana(2.5-flash-image) | 画像出力 $30/100万トークン、1枚=1290トークン | $0.039/枚 | 約6円 |
| Nano Banana Pro(3-pro-image) | 画像出力 $120/100万、1K/2K=1120トークン+思考トークン | 実測 $0.139(2K) | 約21円 |
| Nano Banana 2(3.1-flash-image)※公式表のみ | 2K=$0.101、1K=$0.067 | - | 約15円/10円 |
| GPT Image 2 | 画像出力 $30/100万トークン(1024x1536: low $0.005 / medium $0.042 / high $0.165) | 実測 $0.165(1024x1536 high)、$0.18(1536x1088 high) | 約25〜27円 |
| FLUX 2 Pro(fal) | $0.03/最初の1MP+$0.015/追加MP(切り上げ) | $0.045(1448x1024)、$0.075(1536x2048) | 約7〜11円 |
| FLUX.1 dev(fal)※ページ記載 | $0.025/MP | - | 約4円/MP |
ざっくり言うと、初代 Nano Banana(約6円)と FLUX 系(約7〜11円)が安く、Nano Banana Pro(約21円)と GPT Image 2 high(約25円)がその倍以上。同じ品質帯でも、解像度と品質モードで単価が数倍変わります。
TIP
GPT Image 2 は quality を medium にすると約$0.042(high の約1/4)。構図探しは medium で回し、本番だけ highにするとコスパが良い、というのは実務で効くテクニックでした。
速度・解像度・アスペクト比
- 速度: 明確に速かったのは
fal-ai/flux/schnellで推論0.43秒(API レスポンスの timings 実測)。GPT Image 2 は体感で明らかに遅め(未計測) - 解像度: Nano Banana Pro は 2K で 1792x2400 / 2528x1696 など大きめ。GPT Image 2 は 1024x1536 等の任意サイズだが縦横とも16の倍数が必須(外れると 400 エラー)。fal 経由の GPT Image 2 はプリセットサイズのみ(768x1024 など)。FLUX 2 Pro は任意 px 指定が可能
- アスペクト比: Gemini はプリセット中心で、A4 比(1.414:1)のような端数は直接指定できず 3:2 や 4:3 で代用。OpenAI 直と fal の FLUX はほぼ任意
品質の所感(同一プロンプトでの比較)
同じプロンプト(人物・記事用ヒーロー画像など)を各モデルに通した、横並びの印象です。
- FLUX 2 Pro: フォトリアルの質感が最高。肌・髪・唇のディテールは「実在の人を撮った写真」と言われて一番疑わないレベル。長文の詳細描写にも忠実。ただし構図がクローズアップに寄りがちで、「小首をかしげる」のようなニュアンス指示は弱め
- Nano Banana Pro: 構図・背景・雰囲気づくりとデザインの整理感が最良。一方でレイアウト指示を独自解釈することがある(「カード4枚横並び」が 2x2 グリッドになった)
- GPT Image 2: 抽象的な指示の解釈とレイアウトへの忠実性が最高。「愛くるしい」のような曖昧な指示を一番うまく汲み、インフォグラフィックの構成を唯一そのまま再現した
- 初代 Nano Banana: 約6円にしては十分な品質。細部の精細さは Pro 系に劣る
日本語(CJK)テキスト描画 - ここが分かれ目
実務でいちばん効く差が出たのが画像内の日本語テキストです。
| モデル | 日本語テキスト |
|---|---|
| GPT Image 2 | 誤字ゼロ |
| Nano Banana Pro | 誤字ゼロ |
| FLUX 2 Pro | 明確に不適(崩れ多発) |
FLUX 2 Pro は「コントラスト→コントスト」「か月→ヶ目」「参加型→寿加型」のような文字崩れと行重複が多発しました。FLUX はタイポグラフィ改善も売りにしていますが、公式サンプルも英字(ラテン文字)のみ。日本語テキストを画像に載せるなら GPT Image 2 か Nano Banana Pro の2強、というのがはっきりした結論です。
WARNING
「FLUX はテキストに強い」という英語圏の評判をそのまま日本語に当てはめると事故ります。CJK(日本語・中国語・韓国語)の文字描画は別問題で、今回の検証では FLUX は実用に耐えませんでした。バナーやインフォグラフィックなど文字入りデザインを作るなら、必ず日本語で試してから採用してください。
用途別の使い分け(結論)
| 用途 | 第一候補 |
|---|---|
| 日本語テキスト入りデザイン・インフォグラフィック | GPT Image 2(構成忠実)または Nano Banana Pro(デザイン性と価格) |
| フォトリアルな人物・物撮り・素材量産 | FLUX 系(品質同等以上で単価が半額以下) |
| 大量下書き・高速試行 | flux/schnell(0.4秒)か初代 Nano Banana(約6円) |
| スタイル固定(LoRA)や動画・音声まで横断 | fal(1キーで多数モデル) |
API を使う際の実務的な注意点
検証中に踏んだ「ハマりどころ」です。ここは公式ドキュメントだけだと気づきにくい部分でした。
- fal は前払いクレジット制: 残高が0だと全 API 呼び出しが
User is locked. Reason: Exhausted balanceでロックされる。認証エラーではないので紛らわしい。$10 チャージで利用再開を確認 - OpenAI の gpt-image 系は base64 返却: URL ではなく
b64_jsonで返る。サイズは縦横とも16の倍数でないと 400 エラー - Gemini はアスペクト比の指定方法に癖:
generationConfig.imageConfig.aspectRatio(v1beta)で指定。2K(imageSize)は Pro 系・3.1 系のみ。返却画像の mimeType は PNG とは限らない(Pro は JPEG で返った)。無料ティアのキーだと請求が発生していない場合があるので実請求はコンソールで要確認 - 同じ GPT Image 2 でも経路で差: fal 経由は URL 返却・プリセットサイズのみ、OpenAI 直は base64・任意サイズ。品質検証は本家直、横断比較や請求一本化は fal、という使い分けが現実的
- 費用はすべてレスポンスの
usage/usageMetadataのトークン数 × 公式単価で算出可能
おまけ: 「アイキャッチ用プロンプト」での相性
このブログのアイキャッチ生成にも関わる発見がありました。英語の様式指定プロンプト(座標でセーフゾーンを指定、文字描画なし)で3モデルを比べると、結果が日本語インフォグラフィックとは逆転しました。
- FLUX 2 Pro: $0.045 で最安かつ、紙のグレイン質感や指定パレットの再現が最も忠実。文字なしの様式画像では第一候補
- GPT Image 2: 仕様への適合が最も良好(確実性重視ならこれ)
- Nano Banana Pro: 座標指定を「明るい内側の長方形」として律儀に描いてしまう失敗が出た。プロンプトに「VISIBLE AREA(ピクセル座標)」のような指定を入れると、それを画像内に可視化してしまうことがある
NOTE
座標やピクセル指定を含むプロンプトは、モデルによって「指示」ではなく「描くべき要素」と解釈されることがあります。Nano Banana Pro で枠が出てしまう場合は、座標の節を外して「中央70%に被写体を収める」程度の自然言語に直すと改善が見込めます。プロンプトとモデルの相性は、実際に叩いて確かめるのが確実です。
まとめ
- API 画像生成は「どのモデルか」だけでなく「どの経路(Gemini直/OpenAI直/fal)か」で料金・返却形式・サイズが変わる
- 料金(150円換算): 初代 Nano Banana 約6円・FLUX 系 約7〜11円が安く、Nano Banana Pro 約21円・GPT Image 2 high 約25円はその倍以上
- 速度は flux/schnell が0.43秒と突出。解像度は Nano Banana Pro が大きめ、GPT Image 2 は16の倍数制約あり
- 品質は FLUX=フォトリアル、Nano Banana Pro=構図・雰囲気、GPT Image 2=抽象指示とレイアウト忠実
- 日本語テキストは GPT Image 2 / Nano Banana Pro の2強、FLUX は不適
- 用途別: 文字入りデザイン→GPT Image/Nano Banana、フォトリアル量産→FLUX、高速大量→schnell/初代Nano Banana、横断→fal
- 実務注意: fal の残高ロック、OpenAI の base64/16倍数、Gemini の mimeType ゆれ、経路ごとの機能差
「どれが一番か」ではなく、「何を作るかでモデルと経路を使い分ける」のが結論です。とくに日本語テキストの有無で答えが大きく変わるので、自分のユースケースで一度実際に叩いてみるのを強くおすすめします。