Modèles Google

Vertex AI propose une liste croissante de modèles de fondation que vous pouvez tester, déployer et personnaliser pour les utiliser dans vos applications basées sur l'IA. Les modèles de fondation sont adaptés à des cas d'utilisation spécifiques et proposés à des prix différents. Cette page récapitule les modèles disponibles dans les différentes API et vous guide sur le choix des modèles par cas d'utilisation.

Pour en savoir plus sur tous les modèles d'IA et les API sur Vertex AI, consultez la section Explorer les modèles d'IA dans Model Garden.

Modèles Gemini

Le tableau suivant récapitule les modèles disponibles dans l'API Gemini. Pour en savoir plus sur l'API, consultez la documentation de référence de l'API Gemini.

Pour explorer un modèle dans la console Google Cloud, sélectionnez sa fiche de modèle dans Model Garden.

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Gemini 2.0 Flash
gemini-2.0-flash
Texte, code, images, audio, vidéo, vidéo avec audio, PDF Texte, Audio (aperçu privé), Images (aperçu privé) Modèle de travail pour toutes les tâches quotidiennes. Offre des performances globales élevées et est compatible avec l'API Live en streaming en temps réel. Essayer Gemini 2.0 Flash
Preview de Gemini 2.5 Pro
gemini-2.5-pro-preview-03-25
Texte, images, vidéo, audio, PDF Texte Modèle Gemini de raisonnement le plus avancé, en particulier pour la compréhension multimodale, le codage et la connaissance du monde. Essayer la version preview de Gemini 2.5 Pro
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
Texte, images, vidéo, audio, PDF Texte Notre offre économique pour un débit élevé Essayer Gemini 2.0 Flash-Lite
Flash Thinking Gemini 2.0
gemini-2.0-flash-thinking-exp-01-21
Texte, images Texte Fournit des capacités de raisonnement plus efficaces et inclut le processus de réflexion dans les réponses. Essayer la fonctionnalité Flash Thinking de Gemini 2.0

Les informations suivantes fournissent des détails sur chaque modèle Gemini.

Gemini 2.0 Flash

Nouvelle génération de nos modèles Gemini Flash. Gemini 2.0 Flash offre une vitesse supérieure et prend en charge un plus grand nombre de fonctionnalités, comme le streaming bidirectionnel avec notre API Multimodal Live, la génération de réponses multimodales et l'utilisation d'outils intégrés.

Capacités

Capacité Disponibilité
Ancrage avec la recherche Google
Exécution du code
Réglage
Instruction système Consultez la section Utiliser les instructions système.
Génération contrôlée
Débit provisionné Consultez la section Modèles compatibles.
Prédiction par lot
Appel de fonction

Spécifications

Spécification Valeur
Nombre maximal de jetons d'entrée 1 048 576
Nombre maximal de jetons de sortie 8 192
Données d'entraînement Jusqu'en juin 2024

Aperçu de Gemini 2.5 Pro

Gemini 2.5 Pro Preview est notre modèle le plus performant pour la compréhension multimodale, le codage et la connaissance du monde. Il dispose d'une fenêtre de contexte de 1 million de jetons. Gemini 2.5 Pro Preview est disponible en tant que modèle preview dans Vertex AI. Il s'agit d'un chemin d'accès à la mise à niveau pour les utilisateurs de 1.5 Pro qui souhaitent une meilleure qualité ou qui sont particulièrement investis dans le contexte et le code longs.

Capacités

Capacité Disponibilité
Ancrage avec la recherche Google
Exécution du code
Réglage
Instruction système Consultez la section Utiliser les instructions système.
Génération contrôlée
Débit provisionné Consultez la section Modèles compatibles.

Spécifications

Spécification Valeur
Nombre maximal de jetons d'entrée 1 048 576
Nombre maximal de jetons de sortie 64 000
Données d'entraînement Jusqu'en janvier 2025
Limite de quota 20 requêtes par minute (RPM)

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite est notre modèle Flash le plus rapide et le plus économique. Il offre une meilleure qualité et une meilleure vitesse.

Capacités

Capacité Disponibilité
Ancrage avec la recherche Google
Exécution du code
Réglage
Instruction système Consultez la section Utiliser les instructions système.
Génération contrôlée
Débit provisionné Consultez la section Modèles compatibles.
Prédiction par lot
Appel de fonction

Spécifications

Spécification Valeur
Nombre maximal de jetons d'entrée 1 048 576
Nombre maximal de jetons de sortie 8 192
Données d'entraînement Jusqu'en janvier 2025

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking est un modèle de calcul expérimental au moment du test, qui est entraîné à générer le "processus de réflexion" que le modèle suit dans le cadre de sa réponse. Par conséquent, Flash Thinking est capable de fournir des capacités de raisonnement plus efficaces dans ses réponses que le modèle de base Gemini 2.0 Flash. Pour en savoir plus, consultez la documentation sur la réflexion Flash de Gemini 2.0.

Capacités

Capacité Disponibilité
Ancrage avec la recherche Google
Réglage
Instruction système Consultez la section Utiliser les instructions système.
Génération contrôlée
Débit provisionné Consultez la section Modèles compatibles.

Spécifications

Spécification Valeur
Nombre maximal de jetons d'entrée 1 048 576
Nombre maximal de jetons de sortie 65 536
Données d'entraînement Jusqu'en mai 2024

Langues compatibles avec Gemini

  • Tous les modèles Gemini peuvent comprendre et répondre dans les langues suivantes :

    Arabe (ar), bengali (bn), bulgare (bg), chinois simplifié et traditionnel (zh), croate (hr), tchèque (cs), danois (da), néerlandais (nl), anglais (en), estonien (et), finnois (fi), français (fr), allemand (de), grec (el), hébreu (iw), hindi (hi), hongrois (hu), indonésien (id), italien (it), japonais (ja), coréen (ko), letton (lv), lituanien (lt), norvégien (no), polonais (pl), portugais (pt), roumain (ro), russe (ru), serbe (sr), slovaque (sk), slovène (sl), espagnol (es), swahili (sw), suédois (sv), thaï (th), turc (tr), ukrainien (uk), vietnamien (vi)

  • Les modèles Gemini 2.0 Flash, Gemini 1.5 Pro et Gemini 1.5 Flash peuvent comprendre et répondre dans les langues supplémentaires suivantes:

    Afrikaans (af), amharique (am), assamais (as), azéri (az), biélorusse (be), bosniaque (bs), catalan (ca), cebuano (ceb), corse (co), gallois (cy), divehi (dv), espéranto (eo), basque (eu), farsi (fa), philippin (tagalog) (fil), frison (fy), irlandais (ga), gaélique écossais (gd), galicien (gl), gujarati (gu), haoussa (ha), hawaïen (haw), hmong (hmn), créole haïtien (ht), arménien (hy), igbo (ig), islandais (is), javanais (jv), géorgien (ka), kazakh (kk), khmer (km), kannara (kn), krio (kri), kurde (ku), kirghize (ky), latin (la), luxembourgeois (lb), lao (lo), malgache (mg), maori (mi), macédonien (mk), malayalam (ml), mongol (mn), meiteilon (Manipuri) (mni-Mtei), marathi (mr), malais (ms), maltais (mt), myanmar (birman) (my), népalais (ne), nyanja (chichewa) (ny), odia (oriya) (or), pendjabi (pa), pachto (ps), sindhî (sd), singhalais (sinhalé) (si), samoan (sm), shona (sn), somali (so), albanais (sq), sesotho (st), Soundanais (su), tamoul (ta), télougou (te), tadjik (tg), ouïghour (ug), ourdou (ur), ouzbek (uz), xhosa (xh), yiddish (yi), yoruba (yo), zoulou (zu)

Modèles Gemma

Le tableau suivant récapitule les modèles Gemma.

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Gemma 3
Détails du modèle
Texte, images Texte Modèle ouvert léger et de petite taille compatible avec la génération de texte et les tâches de compréhension des images, y compris la réponse à des questions, la synthèse et le raisonnement. Déployable dans des environnements dont les ressources sont limitées. Essayer Gemma 3
Gemma 2
Détails du modèle
Texte Texte Modèle de texte ouvert léger et de petite taille compatible avec la génération, la synthèse et l'extraction de texte. Déployable dans des environnements dont les ressources sont limitées. Essayer Gemma 2
Gemma
Détails du modèle
Texte Texte Modèle de texte ouvert léger et de petite taille compatible avec la génération, la synthèse et l'extraction de texte. Déployable dans des environnements dont les ressources sont limitées. Essayer Gemma
CodeGemma
Détails du modèle
Texte, code, PDF Texte Ensemble de modèles de code ouvert légers basés sur Gemma. Idéal pour la génération et la complétion de code. Essayer CodeGemma
PaliGemma 2
Détails du modèle
Texte, images Texte Un modèle de vision-langage léger (VLM). Idéal pour les tâches de légendes d'images et de questions-réponses visuelles. Essayer PaliGemma 2
PaliGemma
Détails du modèle
Texte, images Texte Un modèle de vision-langage léger (VLM). Idéal pour les tâches de légendes d'images et de questions-réponses visuelles. Essayer PaliGemma
ShieldGemma 2
Détails du modèle
Texte, images Texte Un modèle de vision-langage léger (VLM) qui vérifie la sécurité des images naturelles et synthétiques pour vous aider à créer des ensembles de données et des modèles robustes. Essayer ShieldGemma 2
TxGemma
Détails du modèle
Texte Texte Ensemble de modèles de langage légers et ouverts pour accélérer le développement de produits thérapeutiques. Idéal pour les tâches de prédiction thérapeutique, y compris la classification, la régression ou la génération, ainsi que les tâches de raisonnement. Essayer TxGemma

Langues acceptées avec Gemma

Gemma et Gemma 2 ne sont disponibles qu'en anglais. Gemma 3 est disponible dans plus de 140 langues.

Modèles d'embeddings

Le tableau suivant récapitule les modèles disponibles dans l'API Embeddings :

Nom du modèle Description Spécifications Essayer le modèle
Embeddings pour le texte
(text-embedding-004,
text-embedding-005
)
Détails du modèle
Renvoie des embeddings pour les entrées de texte en anglais.

Compatible avec le réglage supervisé des modèles d'Embeddings pour le texte, en anglais uniquement.
Nombre maximal de jetons d'entrée: 2 048.

Dimensions d'embedding: text-embedding-004, text-embedding-005: <=768.
Autres: 768.
Essayer les embeddings pour le texte
Embeddings pour le texte multilingue
(text-multilingual-embedding-002)
Détails du modèle
Renvoie des embeddings pour des entrées de texte dans plus de 100 langues

Compatible avec le réglage supervisé du modèle text-multilingual-embedding-002.
Plus de 100 langues acceptées
Nombre maximal de jetons d'entrée : 2 048

Dimension d'embedding : text-multilingual-embedding-002 : <=768
Autres : 768
Essayer les embeddings pour le texte multilingue
Embeddings multimodaux
(multimodalembedding)
Détails du modèle
Renvoie des embeddings pour les entrées de texte, d'image et de vidéo, afin de comparer les contenus entre différents modèles.

Convertit le texte, les images et les vidéos dans le même espace vectoriel. La vidéo n'accepte que 1 408 dimensions.
Anglais uniquement
Nombre maximal de jetons d'entrée : 32.
Taille maximale de l'image : 20 Mo.
Durée maximale de la vidéo : deux minutes.

Dimensions d'embedding : 128, 256, 512, ou 1 408 pour l'entrée texte+image, 1 408 pour l'entrée vidéo.
Essayer les embeddings multimodaux
Embeddings pour le texte (anglais, multilingue, code)
(text-embedding-large-exp-03-07)
Détails du modèle
Renvoie des embeddings pour des entrées de texte dans plus de 100 langues, ainsi que pour le code Python et Java.

Il s'agit d'un modèle expérimental. Les modèles expérimentaux ne suivent pas le plan de cycle de vie et le schéma de gestion des versions standards de Google, et un modèle peut être remplacé par un autre sans préavis. Nous ne garantissons pas qu'un modèle expérimental deviendra un modèle stable à l'avenir.
Nombre maximal de jetons d'entrée: 8 192

Dimensions d'embedding: 3 072
Essayer les embeddings pour le texte volumineux

Langues compatibles avec les embeddings

Les modèles d'embeddings multilingues de texte sont compatibles avec les langues suivantes :
afrikaans, albanais, amharique, arabe, arménien, azéri, basque, biélorusse, bengali, bulgare, birman, catalan, cebuano, chewa, chinois, corse, tchèque danois, néerlandais, anglais, esperanto, estonien, philippin, finlandais, français, galicien, géorgien, allemand, grec, gujarati, créole haïtien, haoussa, hawaïen, hébreu, hindi, hmong, hongrois, islandais, igbo, indonésien, irlandais, italien, japonais, javanais, kannada, kazakh, khmer, coréen, kurde, kirghize, lao, latin, letton, lituanien, luxembourgeois, macédonien, malgache, malais, malayalam, malte, maori, marathi, mongolien, népalais, norvégien, pachto, perse, polonais, portugais, pendjabi, roumain, russe, samoan, gaélique écossais, serbe, shona, sindhi, singhalais, slovaque, slovénien, somalien, sotho, espagnol, soudanais, swahili, suédois, tadjik, tamoul, telougou, thaï, turc, ukrainien, ourdou, ouzbek, vietnamien, gallois, frison occidental, xhosa, yiddish, yoruba, zoulou.

Modèle Imagen

Le tableau suivant récapitule les modèles disponibles dans l'API Imagen :

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Imagen 3
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001)

Imagen 2
(imagegeneration@006, imagegeneration@005)

Imagen
(imagegeneration@002)
Détails du modèle
Texte Images Ce modèle est compatible avec la génération et la modification d'images pour créer des images de haute qualité en quelques secondes. Cela inclut la génération d'images à l'aide de l'apprentissage sans échantillon. Essayez Imagen pour la génération d'images
Imagen 3 (Modification et personnalisation)
(imagen-3.0-capability-001)

Imagen 2 (Modification)
(imagegeneration@006)

Imagen (Modification)
imagegeneration@002)
Détails du modèle
Texte et images Images Ce modèle est compatible avec la modification et la génération d'images personnalisées (à quelques images) pour créer des images de haute qualité en quelques secondes.

La fonctionnalité de retouche permet de réaliser des inpaintings (suppression ou insertion d'objets), des outpaintings et de modifier des images de produits.

La personnalisation est compatible avec l'apprentissage few-shot, ce qui vous permet de fournir des images de référence pour guider la génération d'images de sortie. Ce modèle est compatible avec les types de personnalisation suivants : sujet (produit, personne et animal de compagnie), style, personnalisation contrôlée (croquis ou bordure intelligente) et personnalisation par instruction (transfert de style).
Essayez Imagen pour la modification et la personnalisation

Langues acceptées avec Imagen 3

Imagen 3 est compatible avec les langues suivantes :
anglais, chinois, hindi, japonais, coréen, portugais et espagnol.

Modèle de complétion de code

Le tableau suivant récapitule les modèles disponibles dans les API Codey :

Modèle Entrées Résultats Cas d'utilisation Essayer le modèle
Codey pour la complétion de code
(code-gecko)
Détails du modèle
Code dans les langages acceptés Code dans les langages acceptés Un modèle affiné pour suggérer la complétion de code en fonction du contexte du code écrit. Essayer Codey pour la complétion de code

Langues acceptées avec le modèle de complétion de code

Le modèle de complétion de code est compatible avec l'anglais.

Modèles MedLM

Le tableau suivant récapitule les modèles disponibles dans l'API MedLM :

Nom du modèle Description Spécifications Essayer le modèle
MedLM-medium (medlm-medium)
Détails du modèle
Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research.

Ce modèle aide les professionnels de la santé à répondre à des questions médicales et à résumer des documents médicaux et de santé. Offre un meilleur débit et inclut des données plus récentes que le modèle medlm-large.
Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Essayer MedLM-medium
MedLM-large (medlm-large)
Détails du modèle
Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research.

Ce modèle aide les professionnels de la santé à répondre à des questions médicales et à résumer des documents médicaux et de santé.
Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 1 024
Essayer MedLM-large

Compatibilité avec le débit provisionné MedLM

MedLM-medium et MedLM-large sont compatibles avec le débit provisionné. Consultez la section Modèles compatibles.

Langues compatibles avec MedLM

Le modèle MedLM est compatible avec l'anglais.

Emplacements

Pour obtenir la liste des emplacements où ces modèles sont disponibles, consultez la section IA générative sur les emplacements Vertex AI.

Versions de modèle

Pour en savoir plus sur les versions de modèles, consultez la section Versions de modèles.

Explorer tous les modèles dans Model Garden

Model Garden est une plate-forme qui vous permet de découvrir, de tester, de personnaliser et de déployer des modèles de Google, puis de sélectionner des modèles et des éléments OSS. Pour explorer les modèles d'IA générative et les API disponibles sur Vertex AI, accédez à Model Garden dans la console Google Cloud.

Accéder à la page "Jardin de modèles"

Pour en savoir plus sur Model Garden, y compris sur les modèles et fonctionnalités disponibles, consultez la page Explorer les modèles d'IA dans Model Garden.

Étapes suivantes