サポートされているモデルの詳細

モバイルアプリとウェブアプリの場合、Firebase AI Logic SDK を使用すると、サポートされている Gemini モデルImagen モデルをアプリから直接操作できます。

Gemini モデルは、テキスト、コード、PDF、画像、動画、音声など、複数のモダリティを処理し、生成できるため、マルチモーダルと見なされます。Imagen モデルは、テキストを指定して画像を生成できます。

次の表に、Firebase AI Logic でサポートされているモデルと、最新の安定モデル名の概要を示します。この表には、ユースケースのプロトタイピングに使用できるプレビュー版モデルと試験運用版モデルも示されています。

Gemini モデル

モデル 入力 出力 説明
安定版の Gemini モデル
Gemini 2.0 Flash
gemini-2.0-flash-001
テキスト、コード、PDF、画像、動画、音声 テキスト、コード、JSON 次世代の機能と強化された機能を備えたマルチモーダル モデル。優れた速度、組み込みツールの使用、100 万トークンのコンテキスト ウィンドウなど。
Gemini 2.0 Flash‑Lite
gemini-2.0-flash-lite-001
テキスト、コード、PDF、画像、動画、音声 テキスト、コード、JSON 最も高速で費用対効果の高い Flash モデル。価格と速度はそのままに品質の向上を求めている 1.5 Flash ユーザー向けのアップグレード パスです。
プレビュー バージョンと試験運用版のみの Gemini モデル(プロトタイピングのユースケースにのみ推奨)
Gemini 2.5 Pro
gemini-2.5-pro-preview-05-06
テキスト、コード、PDF、画像、動画、音声 テキスト、コード、JSON 複雑な問題を解決できる、Google の最先端の推論モデルです。
Gemini 2.5 Flash
gemini-2.5-flash-preview-05-20
テキスト、コード、PDF、画像、動画、音声 テキスト、コード、JSON 優れた多様な機能を提供する Google の思考モデル。価格とパフォーマンスのバランスが取れた設計になっています。
Gemini 2.0 Flash Image Generation
gemini-2.0-flash-preview-image-generation
テキスト、コード、PDF、画像、動画、音声 画像、テキスト、画像 マルチモーダル入力と画像出力をサポートするマルチモーダル モデル。
Gemini 2.0 Flash‑Live 1
gemini-2.0-flash-live-preview-04-09
テキスト(ストリーミング)、
音声(ストリーミング)
テキスト(ストリーミング)、
音声(ストリーミング)
マルチモーダル入力と出力の低レイテンシのリアルタイム ストリーミングをサポートするマルチモーダル モデル。

1 Firebase AI Logic SDK で Gemini Developer API を使用する場合はサポートされていません。

Imagen モデル

モデル 入力 出力 説明
安定版の Imagen モデル
Imagen 3
imagen-3.0-generate-002
テキスト 画像 自然言語テキスト プロンプトからリアルで高品質な画像を生成します。
Imagen 3 Fast 2
imagen-3.0-fast-generate-001
テキスト 画像 プロトタイピングや低レイテンシのユースケース用の画像を生成します。
プレビュー バージョンと試験運用版のみの Imagen モデル(プロトタイピングのユースケースにのみ推奨)
Imagen 4 2
imagen-4-0-generate-preview-05-20
テキスト 画像 自然言語テキスト プロンプトからリアルで高品質な画像を生成します。
Imagen 4 Ultra 2
imagen-4-0-ultra-preview-05-20
テキスト 画像 自然言語テキスト プロンプトからリアルで高品質な画像を生成します。

2 この Imagen モデルは、API へのアクセス方法に関係なく、Gemini Developer API ではサポートされていません。

また、Firebase AI Logic がサポートするモデルとサポートしないモデルに関するよくある質問もご覧ください。


このページの残りの部分では、Firebase AI Logic でサポートされているモデルについて詳しく説明します。

このページの下部にある以前のモデルの詳細情報をご覧ください。



モデルの比較

各モデルには、さまざまなユースケースをサポートするさまざまな機能があります。このセクションの各表は、Firebase AI Logic で使用する場合の各モデルについて説明しています。各モデルには、Google の SDK では利用できない追加機能が含まれている場合があります。

次のサブセクションで目的の情報が見つからない場合は、選択した API プロバイダのドキュメントで詳細を確認してください。

サポートされている入力と出力

Firebase AI Logic で各モデルを使用する場合、サポートされている入力と出力のタイプは次のとおりです。

<span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 フラッシュ </span="notranslate">
<span="notranslate">Gemini
2.0 フラッシュ </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 フラッシュ
画像生成 </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen
入力値の型
テキスト
テキスト(ストリーミング)
コード
ドキュメント
(PDF またはテキスト)
画像
動画
音声
オーディオ(ストリーミング)
出力タイプ
テキスト
テキスト(ストリーミング)
コード
構造化出力
(JSON など)
画像
音声
オーディオ(ストリーミング)

サポートされているファイル形式については、サポートされている入力ファイルと要件をご覧ください。

サポートされている機能

Firebase AI Logic で各モデルを使用する場合にサポートされる機能は次のとおりです。

<span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 フラッシュ </span="notranslate">
<span="notranslate">Gemini
2.0 フラッシュ </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 フラッシュ
画像生成 </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen
テキストのみまたはマルチモーダルの入力からテキストを生成する インターレースまたは画像の一部 ストリーミングのみ
画像を生成
Gemini または Imagen
音声を生成する ストリーミングのみ
構造化出力を生成する
(JSON など)
ドキュメントを分析する
(PDF またはプレーンテキスト)
画像を分析する(ビジョン)
動画を分析する(ビジョン)
音声を分析する ストリーミングのみ
マルチターン チャット
関数呼び出し(ツール)
トークンをカウントする
システム指示
双方向マルチモーダル ストリーミング

仕様と制限事項

Firebase AI Logic で各モデルを使用する場合の仕様と制限事項は次のとおりです。

プロパティ <span="notranslate">Gemini
2.5 Pro </span="notranslate">
<span="notranslate">Gemini
2.5 フラッシュ </span="notranslate">
<span="notranslate">Gemini
2.0 フラッシュ </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Lite </span="notranslate">
<span="notranslate">Gemini
2.0 フラッシュ
画像生成 </span="notranslate">
<span="notranslate">Gemini
2.0 Flash-
Live </span="notranslate">
Imagen
コンテキスト ウィンドウ *
トークンの合計上限
(入力と出力の合計)
1,048,576 個のトークン 1,048,576 個のトークン 1,048,576 個のトークン 1,048,576 個のトークン 32,768 個のトークン 32,768 個のトークン 480 トークン
出力トークンの上限 * 65,536 トークン 65,536 トークン 8,192 トークン 8,192 トークン 8,192 トークン 8,192 トークン ---
ナレッジ カットオフ日 2025 年 1 月 2025 年 1 月 2024 年 6 月 2024 年 6 月 2024 年 8 月 2024 年 8 月 ---
PDF(リクエストに応じて)
入力 PDF ファイルの最大数
**
3,000 ファイル 3,000 ファイル 3,000 ファイル 3,000 ファイル 3,000 ファイル --- ---
入力 PDF ファイルあたりの最大
ページ数
**
1,000 ページ 1,000 ページ 1,000 ページ 1,000 ページ 1,000 ページ --- ---
入力 PDF ファイルあたりの最大サイズ
50 MB 50 MB 50 MB 50 MB 50 MB --- ---
画像(リクエストあたり)
入力画像の最大数
3,000 個の画像 3,000 個の画像 3,000 個の画像 3,000 個の画像 3,000 個の画像 --- ---
出力画像の最大数
--- --- --- --- 10 枚 --- 4 枚
入力 base64 エンコード画像あたりの最大サイズ
7 MB 7 MB 7 MB 7 MB 7 MB --- ---
動画(リクエストに応じて)
入力動画ファイルの最大数
10 ファイル 10 ファイル 10 ファイル 10 ファイル 10 ファイル --- ---
すべての入力動画の最大長

(フレームのみ)
60 分程度 60 分程度 60 分程度 60 分程度 60 分程度 --- ---
入力動画
の最大長
(フレーム数 + 音声)
45 分程度 45 分程度 45 分程度 45 分程度 45 分程度 --- ---
音声(リクエストに応じて)
入力音声ファイルの最大数
1 個のファイル 1 個のファイル 1 個のファイル 1 個のファイル 1 個のファイル --- ---
出力音声ファイルの最大数
--- --- --- --- --- --- ---
すべての入力音声の最大長
~ 8.4 時間 ~ 8.4 時間 ~ 8.4 時間 ~ 8.4 時間 ~ 8.4 時間 --- ---
すべての出力音声の最大長
--- --- --- --- --- --- ---

* すべての Gemini モデルで、1 トークンは約 4 文字に相当するため、100 トークンは約 60 ~ 80 ワード(英語)に相当します。Gemini モデルの場合、countTokens を使用してリクエスト内のトークンの合計数を特定できます。

** PDF は画像として扱われるため、PDF の 1 ページは 1 つの画像として扱われます。リクエストで許可されるページ数は、モデルがサポートできる画像の数に制限されます。

詳細情報を確認する



モデルのバージョニングと命名パターン

モデルには、安定版プレビュー版試験運用版があります。便宜上、明示的なバージョン値のないエイリアスがサポートされています。

コードで使用する特定のモデル名については、このページの「使用可能なモデル名」をご覧ください。

バージョンの種類 /
リリース ステージ
説明 モデル名のパターン
安定版 安定版はリリース日から利用可能で、本番環境での使用がサポートされています。

通常、安定版のモデルは、モデルを利用できる最終日を示すサポート終了日とともにリリースされます。この日を過ぎると、このモデルにアクセスできなくなり、Google のサポートも終了します。

安定版のモデル名には、特定の 3 桁のバージョン番号が追加されます。

例: gemini-2.0-flash-001
例: imagen-3.0-generate-002

自動更新の安定版エイリアス 自動更新の安定版エイリアスは、常にそのモデルの最新の安定版を参照します。新しい安定版がリリースされると、自動更新エイリアスが自動的にその新しい安定版を参照するようになります。

エイリアスのモデル名には接尾辞がない

例: gemini-2.0-flash

プレビュー プレビュー版には新しい機能が含まれており、安定版ではないと見なされます。

プレビュー バージョンは、常にそのモデルの最新の プレビュー バージョンを参照します。新しいプレビュー バージョンがリリースされると、既存のプレビュー バージョンは自動的にその新しいプレビュー バージョンを参照するようになります。

これらのモデルは本番環境での使用は推奨されません。レートの上限がより厳しく、課金要件がある場合があります。

プレビュー バージョンのモデル名には、モデルのリリース日(-MM-DD)とともに -preview が追加されます。

例: gemini-2.5-flash-preview-04-17
(2025 年 4 月 17 日リリース)

試験運用版 試験運用版には新しい機能が含まれており、安定版ではないと見なされます。

これらのモデルは、本番環境での使用は推奨されません。また、より制限の厳しいレート制限が適用されます。試験運用版モデルは、フィードバックの収集と最新機能のテストを行うことを目的としています。

試験運用版のモデル名には、モデルのリリース日(-MM-DD)とともに -exp が追加されます。

例: gemini-2.5-pro-exp-03-25
(2025 年 3 月 25 日リリース)

退職 廃止されたバージョンは廃止日を過ぎており、完全に無効になっています。

廃止されたモデルにはアクセスできず、Google によるサポートも終了しています。 廃止されたモデル ID を参照するリクエストは通常、404 エラーを返します。

---



使用可能なモデル名

モデル名は、モデルの初期化時にコードに含める明示的な値です。

使用可能なすべてのモデルをプログラムでリストする

REST API を使用して、使用可能なすべてのモデル名を一覧表示できます。

返されるリストには、API プロバイダでサポートされているすべてのモデルが含まれますが、Firebase AI Logic は、このページで説明する Gemini モデルと Imagen モデルのみをサポートします。また、自動更新エイリアス(gemini-2.0-flash など)は、ベースモデルの便利なエイリアスであるため、リストに表示されません。

Gemini モデル名

プラットフォームの初期化例については、スタートガイドをご覧ください。

リリース ステージの詳細(特にユースケースと課金)については、モデルのバージョニングと命名パターンをご覧ください。

Gemini 2.5 Pro モデル名

モデル名 説明 リリース ステージ リリース日 退職日
gemini-2.5-pro-preview-05-06 Gemini 2.5 Pro の最新プレビュー バージョン プレビュー 2025-05-06 未定
gemini-2.5-pro-preview-03-25 gemini-2.5-pro-preview-05-06 を指すプレビュー版
最新のプレビュー バージョン)
プレビュー 2025 年 3 月 25 日 未定

Gemini 2.5 Flash モデル名

モデル名 説明 リリース ステージ リリース日 退職日
gemini-2.5-flash-preview-05-20 Gemini 2.5 Flash の最新プレビュー バージョン プレビュー 2025-05-20 未定
gemini-2.5-flash-preview-04-17 Gemini 2.5 Flash の初期プレビュー バージョン プレビュー 2025-04-17 未定

Gemini 2.0 Flash モデル名

モデル名 説明 リリース ステージ リリース日 退職日
gemini-2.0-flash-001 Gemini 2.0 Flash の最新の安定版 Stable 2025-02-05
2026-02-05 以降
gemini-2.0-flash 2.0 Flash の最新の安定版を指す自動更新エイリアス
(現在は gemini-2.0-flash-001
Stable 2025-02-10 ---

Gemini 2.0 Flash‑Lite モデル名

モデル名 説明 リリース ステージ リリース日 退職日
gemini-2.0-flash-lite-001 Gemini 2.0 Flash‑Lite の最新の安定版 Stable 2025-02-25
2026-02-25 以降
gemini-2.0-flash-lite 2.0 Flash-Lite の最新の安定版を指す自動更新エイリアス
(現在は gemini-2.0-flash-lite-001
Stable 2025-02-25 ---

Gemini 2.0 Flash Image Generation モデル名

モデル名 説明 リリース ステージ リリース日 退職日
gemini-2.0-flash-preview-image-generation 1 Gemini 2.0 Flash Image Generation のプレビュー バージョン プレビュー 2025-05-06 未定

Gemini 2.0 Flash‑Live モデル名

API プロバイダとして Vertex AI Gemini API を使用している場合にのみ使用できます。

モデル名 説明 リリース ステージ リリース日 退職日
gemini-2.0-flash-live-preview-04-09 1 Gemini 2.0 Flash‑Live のプレビュー バージョン プレビュー 2025-04-09 未定

1 Firebase AI Logic SDK で Gemini Developer API を使用する場合はサポートされていません。

Imagen モデル名

プラットフォームの初期化例については、Imagen を使用して画像を生成するガイドをご覧ください。

リリース ステージの詳細(特にユースケースと課金)については、モデルのバージョニングと命名パターンをご覧ください。

Imagen 4 モデル名

モデル名 説明 リリース ステージ リリース日 退職日
imagen-4-0-generate-preview-05-20 2 Imagen 4 のプレビュー版 プレビュー 2025-05-20 未定

Imagen 4 Ultra モデル名

モデル名 説明 リリース ステージ リリース日 退職日
imagen-4.0-ultra-generate-exp-05-20 2 Imagen 4 Ultra の試験運用版 プレビュー 2025-05-20 未定

Imagen 3 モデル名

モデル名 説明 リリース ステージ リリース日 退職日
imagen-3.0-generate-002 Imagen 3 の最新の安定版 Stable 2025-01-23 2026 年 1 月 23 日以降
imagen-3.0-generate-001 2 Imagen 3 の最初の安定版 Stable 2024-07-31 2025-07-31 以降

Imagen 3 Fast モデル名

モデル名 説明 リリース ステージ リリース日 退職日
imagen-3.0-fast-generate-001 2 Imagen 3 Fast の最初の安定版 Stable 2024-07-31 2025-07-31 以降

2 API へのアクセス方法に関係なく、Gemini Developer API ではサポートされていません。



サポートされている言語

Gemini

  • すべての Gemini モデルは、次の言語を理解して回答できます。

    アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)

  • Gemini 2.0 FlashGemini 1.5 ProGemini 1.5 Flash モデルは、次の追加言語を理解して回答できます。

    アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼルバイジャン語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタルーニャ語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モン語(hmn)、クレオール語(ハイチ)(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、ジョージア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオ語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チェワ語)(ny)、オディア語(オリヤー語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、ソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥー語(ur)、ウズベク語(uz)、コーサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)

Imagen

  • 一般提供: 英語

  • プレビュー: 中国語(簡体)、中国語(繁体)、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語



以前のモデルに関する情報

Firebase AI Logic は、以前のアクティブな Gemini モデル(Gemini 1.5 モデルなど)をサポートしています。

Firebase AI Logic は、古い Imagen モデル(Imagen 2 など)をサポートしていません。

モデル 入力 出力 最適な用途
Gemini 1.5 Pro
gemini-1.5-pro-002
テキスト、コード、PDF、画像、動画、音声 テキスト、コード、JSON より高度なインテリジェンスを必要とする複雑な推論タスクをサポート。200 万文字の長いコンテキスト
Gemini 1.5 Flash
gemini-1.5-flash-002
テキスト、コード、PDF、画像、動画、音声 テキスト、コード、JSON さまざまなタスクで高速で汎用性の高いパフォーマンスを提供します。
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision-001
テキスト、コード、PDF、画像、動画(フレームのみ) テキスト、コード テキストまたはコードのレスポンスのテキスト、画像、動画を処理します。チャットには使用できません。
Gemini 1.0 Pro
gemini-1.0-pro-002
テキスト、コード テキスト、コード 自然言語タスク、マルチターン テキストとコードチャット、コード生成



次のステップ

Gemini API の機能を試す