Tạo hình ảnh

Gemini API hỗ trợ tạo hình ảnh bằng cách sử dụng Gemini 2.0 Flash Experimental và sử dụng Imagen 3. Hướng dẫn này sẽ giúp bạn bắt đầu sử dụng cả hai mô hình.

Để biết hướng dẫn về câu lệnh hình ảnh, hãy xem phần Hướng dẫn về câu lệnh hình ảnh.

Trước khi bắt đầu

Trước khi gọi Gemini API, hãy đảm bảo bạn đã cài đặt SDK mà bạn chọnkhoá Gemini API đã được định cấu hình và sẵn sàng sử dụng.

Tạo hình ảnh bằng Gemini

Gemini 2.0 Flash Experimental hỗ trợ khả năng xuất văn bản và hình ảnh cùng dòng. Điều này cho phép bạn sử dụng Gemini để chỉnh sửa hình ảnh theo cách trò chuyện hoặc tạo đầu ra có văn bản đan xen (ví dụ: tạo một bài đăng trên blog có văn bản và hình ảnh trong một lượt). Tất cả hình ảnh được tạo đều có hình mờ SynthID và hình ảnh trong Google AI Studio cũng có hình mờ hiển thị.

Ví dụ sau đây cho thấy cách sử dụng Gemini 2.0 để tạo đầu ra văn bản và hình ảnh:

Python

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
import base64

client = genai.Client()

contents = ('Hi, can you create a 3d rendered image of a pig '
            'with wings and a top hat flying over a happy '
            'futuristic scifi city with lots of greenery?')

response = client.models.generate_content(
    model="gemini-2.0-flash-exp-image-generation",
    contents=contents,
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO((part.inline_data.data)))
    image.save('gemini-native-image.png')
    image.show()

JavaScript

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const contents =
    "Hi, can you create a 3d rendered image of a pig " +
    "with wings and a top hat flying over a happy " +
    "futuristic scifi city with lots of greenery?";

  // Set responseModalities to include "Image" so the model can generate  an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-exp-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

REST

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"}
      ]
    }],
    "generationConfig":{"responseModalities":["TEXT","IMAGE"]}
  }' \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-native-image.png
Hình ảnh do AI tạo ra về một con lợn bay kỳ ảo
Hình ảnh do AI tạo về một con lợn bay kỳ lạ

Tuỳ thuộc vào câu lệnh và ngữ cảnh, Gemini sẽ tạo nội dung ở nhiều chế độ (văn bản sang hình ảnh, văn bản sang hình ảnh và văn bản, v.v.). Dưới đây là một số ví dụ:

  • Chuyển văn bản thành hình ảnh
    • Câu lệnh ví dụ: "Tạo hình ảnh tháp Eiffel có pháo hoa ở nền sau."
  • Văn bản thành(các) hình ảnh và văn bản (xen kẽ)
    • Câu lệnh mẫu: "Tạo công thức nấu ăn có hình minh hoạ cho món paella."
  • (Các) hình ảnh và văn bản thành(các) hình ảnh và văn bản (xen kẽ)
    • Câu lệnh mẫu: (Có hình ảnh một phòng được trang bị đồ nội thất) "Có màu sofa nào khác phù hợp với không gian của tôi không? Bạn có thể cập nhật hình ảnh không?"
  • Chỉnh sửa hình ảnh (văn bản và hình ảnh thành hình ảnh)
    • Câu lệnh ví dụ: "Chỉnh sửa hình ảnh này để trông giống như một bức tranh hoạt hình"
    • Câu lệnh mẫu: [hình ảnh một con mèo] + [hình ảnh một chiếc gối] + "Tạo hình thêu chữ thập của con mèo của tôi trên chiếc gối này".
  • Chỉnh sửa hình ảnh nhiều lượt (cuộc trò chuyện)
    • Câu lệnh mẫu: [tải hình ảnh một chiếc xe màu xanh dương lên.] "Chuyển đổi chiếc xe này thành xe mui trần." "Bây giờ, hãy thay đổi màu thành màu vàng."

Chỉnh sửa hình ảnh bằng Gemini

Để chỉnh sửa hình ảnh, hãy thêm hình ảnh làm dữ liệu đầu vào. Ví dụ sau đây minh hoạ cách tải hình ảnh được mã hoá base64 lên. Đối với nhiều hình ảnh và tải trọng lớn hơn, hãy kiểm tra phần đầu vào hình ảnh.

Python

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

import PIL.Image

image = PIL.Image.open('/path/to/image.png')

client = genai.Client()

text_input = ('Hi, This is a picture of me.'
            'Can you add a llama next to me?',)

response = client.models.generate_content(
    model="gemini-2.0-flash-exp-image-generation",
    contents=[text_input, image],
    config=types.GenerateContentConfig(
      response_modalities=['TEXT', 'IMAGE']
    )
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))
    image.show()

JavaScript

import { GoogleGenAI, Modality } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  // Load the image from the local file system
  const imagePath = "path/to/image.png";
  const imageData = fs.readFileSync(imagePath);
  const base64Image = imageData.toString("base64");

  // Prepare the content parts
  const contents = [
    { text: "Can you add a llama next to the image?" },
    {
      inlineData: {
        mimeType: "image/png",
        data: base64Image,
      },
    },
  ];

  // Set responseModalities to include "Image" so the model can generate an image
  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash-exp-image-generation",
    contents: contents,
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });
  for (const part of response.candidates[0].content.parts) {
    // Based on the part type, either show the text or save the image
    if (part.text) {
      console.log(part.text);
    } else if (part.inlineData) {
      const imageData = part.inlineData.data;
      const buffer = Buffer.from(imageData, "base64");
      fs.writeFileSync("gemini-native-image.png", buffer);
      console.log("Image saved as gemini-native-image.png");
    }
  }
}

main();

REST

IMG_PATH=/path/to/your/image1.jpeg

if [[ "$(base64 --version 2>&1)" = *"FreeBSD"* ]]; then
  B64FLAGS="--input"
else
  B64FLAGS="-w0"
fi

IMG_BASE64=$(base64 "$B64FLAGS" "$IMG_PATH" 2>&1)

curl -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp-image-generation:generateContent?key=$GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -d "{
      \"contents\": [{
        \"parts\":[
            {\"text\": \"'Hi, This is a picture of me. Can you add a llama next to me\"},
            {
              \"inline_data\": {
                \"mime_type\":\"image/jpeg\",
                \"data\": \"$IMG_BASE64\"
              }
            }
        ]
      }],
      \"generationConfig\": {\"responseModalities\": [\"TEXT\", \"IMAGE\"]}
    }"  \
  | grep -o '"data": "[^"]*"' \
  | cut -d'"' -f4 \
  | base64 --decode > gemini-edited-image.png

Các điểm hạn chế

  • Để có hiệu suất tốt nhất, hãy sử dụng các ngôn ngữ sau: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • Tính năng tạo hình ảnh không hỗ trợ đầu vào âm thanh hoặc video.
  • Tính năng tạo hình ảnh không phải lúc nào cũng kích hoạt:
    • Mô hình có thể chỉ xuất văn bản. Hãy thử yêu cầu đầu ra hình ảnh một cách rõ ràng (ví dụ: "tạo hình ảnh", "cung cấp hình ảnh khi bạn thực hiện", "cập nhật hình ảnh").
    • Mô hình có thể ngừng tạo trong quá trình tạo. Hãy thử lại hoặc thử một câu lệnh khác.
  • Khi tạo văn bản cho hình ảnh, Gemini hoạt động hiệu quả nhất nếu trước tiên bạn tạo văn bản rồi yêu cầu hình ảnh có văn bản đó.

Chọn một mô hình

Bạn nên sử dụng mô hình nào để tạo hình ảnh? Điều này phụ thuộc vào trường hợp sử dụng của bạn.

Gemini 2.0 phù hợp nhất để tạo hình ảnh phù hợp theo ngữ cảnh, kết hợp văn bản và hình ảnh, kết hợp kiến thức về thế giới và suy luận về hình ảnh. Bạn có thể sử dụng thành phần này để tạo hình ảnh chính xác, phù hợp theo ngữ cảnh được nhúng trong các trình tự văn bản dài. Bạn cũng có thể chỉnh sửa hình ảnh theo cách trò chuyện, sử dụng ngôn ngữ tự nhiên, đồng thời duy trì ngữ cảnh trong suốt cuộc trò chuyện.

Nếu chất lượng hình ảnh là ưu tiên hàng đầu của bạn, thì Imagen 3 sẽ là lựa chọn phù hợp hơn. Imagen 3 nổi trội về độ chân thực của ảnh, chi tiết nghệ thuật và các phong cách nghệ thuật cụ thể như trường phái ấn tượng hoặc anime. Imagen 3 cũng là một lựa chọn phù hợp cho các nhiệm vụ chỉnh sửa hình ảnh chuyên biệt như cập nhật nền sản phẩm, nâng cấp hình ảnh và truyền tải thương hiệu cũng như phong cách vào hình ảnh. Bạn có thể sử dụng Imagen 3 để tạo biểu trưng hoặc các thiết kế sản phẩm mang thương hiệu khác.

Tạo hình ảnh bằng Imagen 3

API Gemini cung cấp quyền truy cập vào Imagen 3, mô hình chuyển văn bản thành hình ảnh có chất lượng cao nhất của Google, với một số tính năng mới và cải tiến. Imagen 3 có thể làm những việc sau:

  • Tạo hình ảnh có chi tiết tốt hơn, ánh sáng phong phú hơn và ít cấu trúc lạ gây mất tập trung hơn so với các mô hình trước
  • Hiểu được câu lệnh được viết bằng ngôn ngữ tự nhiên
  • Tạo hình ảnh ở nhiều định dạng và phong cách
  • Kết xuất văn bản hiệu quả hơn so với các mô hình trước

Python

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO

client = genai.Client(api_key='GEMINI_API_KEY')

response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='Robot holding a red skateboard',
    config=types.GenerateImagesConfig(
        number_of_images= 4,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

JavaScript

import { GoogleGenAI } from "@google/genai";
import * as fs from "node:fs";

async function main() {

  const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });

  const response = await ai.models.generateImages({
    model: 'imagen-3.0-generate-002',
    prompt: 'Robot holding a red skateboard',
    config: {
      numberOfImages: 4,
    },
  });

  let idx = 1;
  for (const generatedImage of response.generatedImages) {
    let imgBytes = generatedImage.image.imageBytes;
    const buffer = Buffer.from(imgBytes, "base64");
    fs.writeFileSync(`imagen-${idx}.png`, buffer);
    idx++;
  }
}

main();

REST

curl -X POST \
    "https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=GEMINI_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
        "instances": [
          {
            "prompt": "Robot holding a red skateboard"
          }
        ],
        "parameters": {
          "sampleCount": 4
        }
      }'
Hình ảnh do AI tạo về hai chú thỏ nhồi bông trong bếp
Hình ảnh do AI tạo về hai chú thỏ nhồi bông trong bếp

Hiện tại, Imagen chỉ hỗ trợ câu lệnh bằng tiếng Anh và các thông số sau:

Tham số mô hình Imagen

(Quy ước đặt tên khác nhau tuỳ theo ngôn ngữ lập trình.)

  • numberOfImages: Số lượng hình ảnh cần tạo, từ 1 đến 4 (bao gồm cả 4). Giá trị mặc định là 4.
  • aspectRatio: Thay đổi tỷ lệ khung hình của hình ảnh được tạo. Các giá trị được hỗ trợ là "1:1", "3:4", "4:3", "9:16""16:9". Giá trị mặc định là "1:1".
  • personGeneration: Cho phép mô hình tạo hình ảnh của con người. Những giá trị sau đây được hỗ trợ:
    • "DONT_ALLOW": Chặn việc tạo hình ảnh của người.
    • "ALLOW_ADULT": Tạo hình ảnh về người lớn, nhưng không phải trẻ em. Đây là lựa chọn mặc định.

Hướng dẫn về câu lệnh Imagen

Phần này của hướng dẫn về Imagen cho bạn biết cách sửa đổi câu lệnh chuyển văn bản sang hình ảnh có thể tạo ra nhiều kết quả khác nhau, cùng với ví dụ về hình ảnh bạn có thể tạo.

Kiến thức cơ bản về cách viết câu lệnh

Câu lệnh hay phải mang tính mô tả và rõ ràng, đồng thời sử dụng các từ khoá và đối tượng sửa đổi có ý nghĩa. Hãy bắt đầu bằng cách suy nghĩ về chủ đề, ngữ cảnhphong cách.

Câu lệnh có chủ đề, bối cảnh và phong cách được nhấn mạnh
Văn bản trong hình ảnh: Một bản phác thảo (phong cách) về một tòa nhà chung cư hiện đại (chủ thể) được bao quanh bởi nhà chọc trời (bối cảnh và nền).
  1. Chủ thể: Điều đầu tiên cần nghĩ đến khi có bất kỳ câu lệnh nào là chủ thể: đối tượng, người, động vật hoặc cảnh mà bạn muốn chụp ảnh.

  2. Ngữ cảnh và nền: Nền hoặc ngữ cảnh nơi đặt chủ thể cũng quan trọng không kém. Hãy thử đặt chủ thể của bạn trong nhiều nền. Ví dụ: phòng chụp có phông nền trắng, ngoài trời hoặc môi trường trong nhà.

  3. Kiểu: Cuối cùng, hãy thêm kiểu hình ảnh mà bạn muốn. Phong cách có thể là chung (bức vẽ, ảnh chụp, bản phác thảo) hoặc rất cụ thể (bức vẽ màu phấn, bản vẽ bằng than, hình ảnh 3D phối cảnh isometric). Bạn cũng có thể kết hợp các kiểu.

Sau khi viết phiên bản đầu tiên của câu lệnh, hãy tinh chỉnh câu lệnh bằng cách thêm nhiều thông tin chi tiết hơn cho đến khi bạn có được hình ảnh mà mình muốn. Lặp lại là một yếu tố quan trọng. Bắt đầu bằng cách xác lập ý tưởng cốt lõi, sau đó tinh chỉnh và mở rộng ý tưởng cốt lõi đó cho đến khi hình ảnh được tạo gần với tầm nhìn của bạn.

hình ảnh mẫu chân thực 1
Câu lệnh: Một công viên vào mùa xuân bên cạnh một hồ nước
hình ảnh mẫu chân thực 2
Câu lệnh: Một công viên vào mùa xuân bên cạnh một hồ nước, mặt trời lặn trên hồ, thời điểm hoàng hôn
hình ảnh mẫu chân thực 3
Câu lệnh: Một công viên vào mùa xuân bên cạnh một hồ nước, mặt trời lặn trên hồ, thời điểm hoàng hôn, hoa dại màu đỏ

Imagen 3 có thể biến ý tưởng của bạn thành hình ảnh chi tiết, cho dù câu lệnh của bạn ngắn hay dài và chi tiết. Tinh chỉnh tầm nhìn của bạn thông qua lời nhắc lặp lại, thêm chi tiết cho đến khi bạn đạt được kết quả hoàn hảo.

Câu lệnh ngắn giúp bạn tạo hình ảnh nhanh chóng.

Ví dụ về câu lệnh ngắn trong Imagen 3
Câu lệnh: ảnh cận cảnh một người phụ nữ ở độ tuổi 20, ảnh đường phố, ảnh tĩnh trong phim, tông màu cam ấm dịu

Câu lệnh dài hơn cho phép bạn thêm thông tin chi tiết cụ thể và xây dựng hình ảnh.

Ví dụ về câu lệnh dài trong Imagen 3
Câu lệnh: ảnh hấp dẫn về một phụ nữ ở độ tuổi 20 sử dụng phong cách chụp ảnh đường phố. Hình ảnh phải trông giống như một bức ảnh tĩnh trong phim với tông màu ấm áp, nhẹ nhàng.

Một số lời khuyên khác về cách viết câu lệnh cho Imagen:

  • Sử dụng ngôn ngữ mô tả: Sử dụng các tính từ và trạng từ chi tiết để vẽ một bức tranh rõ ràng cho Hình ảnh 3.
  • Cung cấp ngữ cảnh: Nếu cần, hãy thêm thông tin cơ bản để hỗ trợ AI hiểu rõ.
  • Tham khảo các nghệ sĩ hoặc phong cách cụ thể: Nếu bạn có một phong cách thẩm mỹ cụ thể, bạn có thể tham khảo các nghệ sĩ hoặc phong trào nghệ thuật cụ thể.
  • Sử dụng công cụ kỹ thuật câu lệnh: Hãy cân nhắc việc khám phá các công cụ hoặc tài nguyên kỹ thuật câu lệnh để giúp bạn tinh chỉnh câu lệnh và đạt được kết quả tối ưu.
  • Nâng cao chi tiết khuôn mặt trong ảnh cá nhân và ảnh nhóm:
    • Chỉ định các chi tiết trên khuôn mặt làm tiêu điểm của bức ảnh (ví dụ: sử dụng từ "chân dung" trong câu lệnh).

Tạo văn bản trong hình ảnh

Imagen có thể thêm văn bản vào hình ảnh, mở ra nhiều khả năng tạo hình ảnh sáng tạo hơn. Hãy làm theo hướng dẫn sau để khai thác tối đa tính năng này:

  • Lặp lại một cách tự tin: Bạn có thể phải tạo lại hình ảnh cho đến khi đạt được giao diện mong muốn. Tính năng tích hợp văn bản của Imagen vẫn đang phát triển và đôi khi, bạn cần thử nhiều lần để có được kết quả tốt nhất.
  • Ngắn gọn: Giới hạn văn bản ở mức 25 ký tự trở xuống để tạo hiệu quả tối ưu.
  • Nhiều cụm từ: Thử nghiệm với hai hoặc ba cụm từ riêng biệt để cung cấp thêm thông tin. Tránh vượt quá 3 cụm từ để có các thành phần rõ ràng hơn.

    Ví dụ về văn bản được tạo bằng Imagen 3
    Câu lệnh: Một áp phích có tiêu đề là "Summerland" (Mùa hè) bằng phông chữ đậm, bên dưới tiêu đề này là khẩu hiệu "Summer never felt so good" (Mùa hè chưa bao giờ tuyệt vời đến thế)
  • Hướng dẫn vị trí: Mặc dù Imagen có thể cố gắng định vị văn bản theo hướng dẫn, nhưng đôi khi vẫn có thể có sự khác biệt. Tính năng này liên tục được cải thiện.

  • Kiểu phông chữ gợi ý: Chỉ định một kiểu phông chữ chung để ảnh hưởng một cách tinh tế đến các lựa chọn của Imagen. Đừng dựa vào việc sao chép phông chữ chính xác, mà hãy mong đợi các cách diễn giải sáng tạo.

  • Kích thước phông chữ: Chỉ định kích thước phông chữ hoặc chỉ báo chung về kích thước (ví dụ: nhỏ, vừa, lớn) để ảnh hưởng đến việc tạo kích thước phông chữ.

Tham số hoá lời nhắc

Để kiểm soát tốt hơn kết quả đầu ra, bạn nên tham số hoá dữ liệu đầu vào vào Imagen. Ví dụ: giả sử bạn muốn khách hàng có thể tạo biểu trưng cho doanh nghiệp của họ và bạn muốn đảm bảo biểu trưng luôn được tạo trên nền màu đồng nhất. Bạn cũng muốn giới hạn các tuỳ chọn mà ứng dụng có thể chọn trong trình đơn.

Trong ví dụ này, bạn có thể tạo một lời nhắc có tham số tương tự như sau:

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

Trong giao diện người dùng tuỳ chỉnh, khách hàng có thể nhập các tham số bằng trình đơn và giá trị mà họ chọn sẽ được điền vào lời nhắc mà Imagen nhận được.

Ví dụ:

  1. Lời nhắc: A minimalist logo for a health care company on a solid color background. Include the text Journey.

    Ví dụ 1 về việc tham số hoá lời nhắc Imagen 3

  2. Lời nhắc: A modern logo for a software company on a solid color background. Include the text Silo.

    Ví dụ 2 về việc tham số hoá câu lệnh của Imagen 3

  3. Lời nhắc: A traditional logo for a baking company on a solid color background. Include the text Seed.

    Ví dụ 3 về tham số hoá câu lệnh của Imagen 3

Kỹ thuật viết câu lệnh nâng cao

Hãy sử dụng các ví dụ sau để tạo câu lệnh cụ thể hơn dựa trên các thuộc tính như nội dung mô tả nhiếp ảnh, hình dạng và chất liệu, phong trào nghệ thuật trong quá khứ và đối tượng sửa đổi chất lượng hình ảnh.

Nhiếp ảnh

  • Lời nhắc bao gồm: "Một bức ảnh về..."

Để sử dụng kiểu này, hãy bắt đầu bằng cách sử dụng các từ khoá cho Imagen biết rõ rằng bạn đang tìm kiếm một bức ảnh. Bắt đầu câu lệnh bằng "Một bức ảnh về. . .". Ví dụ:

hình ảnh mẫu chân thực 1
Câu lệnh: Ảnh chụp hạt cà phê trong bếp trên một bề mặt bằng gỗ
hình ảnh mẫu chân thực 2
Câu lệnh: Ảnh chụp một thanh sô cô la trên quầy bếp
hình ảnh mẫu chân thực 3
Câu lệnh: Ảnh chụp một toà nhà hiện đại có nước ở hậu cảnh

Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.

Đối tượng sửa đổi ảnh chụp

Trong các ví dụ sau, bạn có thể thấy một số đối tượng sửa đổi và tham số dành riêng cho nhiếp ảnh. Bạn có thể kết hợp nhiều đối tượng sửa đổi để kiểm soát chính xác hơn.

  1. Khoảng cách chụpCận cảnh, chụp từ xa

    hình ảnh mẫu chụp cận cảnh bằng máy ảnh
    Câu lệnh: Ảnh cận cảnh về hạt cà phê
    hình ảnh mẫu máy ảnh đã thu nhỏ
    Câu lệnh: Ảnh đã thu nhỏ một túi nhỏ hạt cà phê
    trong một gian bếp bừa bộn

  2. Vị trí máy ảnhtừ trên cao, từ dưới lên

    hình ảnh mẫu chụp trên không
    Câu lệnh: ảnh chụp trên không của thành phố đô thị có nhà cao tầng
    chế độ xem từ bên dưới hình ảnh mẫu
    Câu lệnh: Ảnh chụp tán rừng với bầu trời xanh từ dưới lên
  3. Ánh sángtự nhiên, ấn tượng, ấm áp, lạnh

    hình ảnh mẫu có ánh sáng tự nhiên
    Câu lệnh: ảnh chụp ghế bành hiện đại trong phòng chụp, ánh sáng tự nhiên
    hình ảnh mẫu về ánh sáng ấn tượng
    Câu lệnh: ảnh chụp trong phòng thu về một chiếc ghế bành hiện đại, ánh sáng ấn tượng
  4. Cài đặt máy ảnh – làm mờ chuyển động, lấy nét mềm, hiệu ứng bokeh, chân dung

    hình ảnh mẫu làm mờ chuyển động
    Câu lệnh: ảnh chụp một thành phố có nhà chọc trời từ bên trong ô tô, có hiệu ứng mờ chuyển động
    hình ảnh mẫu có tiêu điểm mềm
    Câu lệnh: Ảnh lấy tiêu điểm mềm về một cây cầu ở thành phố đô thị vào ban đêm
  5. Loại ống kính35mm, 50mm, mắt cá, góc rộng, macro

    hình ảnh mẫu chụp bằng ống kính macro
    Câu lệnh: ảnh một chiếc lá, ống kính macro
    hình ảnh mẫu chụp bằng ống kính mắt cá
    Câu lệnh: ảnh đường phố, thành phố New York, ống kính mắt cá
  6. Loại phimđen trắng, polaroid

    hình ảnh mẫu ảnh Polaroid
    Lời nhắc: ảnh chân dung Polaroid của một chú chó đeo kính râm
    hình ảnh mẫu ảnh đen trắng
    Câu lệnh: ảnh đen trắng về một chú chó đeo kính râm

Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.

Hình minh hoạ và nghệ thuật

  • Lời nhắc bao gồm: "Một painting của...", "Một sketch của..."

Phong cách nghệ thuật rất đa dạng, từ phong cách đơn sắc như bản phác thảo bằng bút chì đến nghệ thuật số siêu thực tế. Ví dụ: các hình ảnh sau đây sử dụng cùng một câu lệnh với nhiều kiểu khác nhau:

"Một [art style or creation technique] của một chiếc sedan điện thể thao góc cạnh với các tòa nhà chọc trời ở hậu cảnh"

hình ảnh mẫu nghệ thuật
Câu lệnh: Bản vẽ kỹ thuật bằng bút chì về một góc...
hình ảnh mẫu nghệ thuật
Câu lệnh: Bản vẽ bằng than củi về một góc...
hình ảnh mẫu nghệ thuật
Câu lệnh: Bức vẽ bằng bút chì màu về một góc...
hình ảnh mẫu nghệ thuật
Lời nhắc: Một bức tranh màu phấn về một góc...
hình ảnh mẫu nghệ thuật
Câu lệnh: Hình minh hoạ kỹ thuật số về một...
hình ảnh mẫu nghệ thuật
Lời nhắc: Một áp phích (phong cách art deco) về một...

Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 2.

Hình dạng và chất liệu

  • Lời nhắc bao gồm: "...được làm bằng...", "...có hình dạng..."

Một trong những điểm mạnh của công nghệ này là bạn có thể tạo hình ảnh mà nếu không thì rất khó hoặc không thể tạo được. Ví dụ: bạn có thể tạo lại biểu trưng công ty của mình bằng nhiều chất liệu và hoạ tiết.

hình ảnh ví dụ 1 về hình dạng và chất liệu
Câu lệnh: một chiếc túi thể thao được làm từ phô mai
hình ảnh ví dụ 2 về hình dạng và chất liệu
Lời nhắc: ống neon có hình dạng của một con chim
hình ảnh ví dụ 3 về hình dạng và chất liệu
Câu lệnh: một chiếc ghế bành làm bằng giấy, ảnh chụp trong studio, theo phong cách origami

Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.

Tài liệu tham khảo về nghệ thuật lịch sử

  • Lời nhắc bao gồm: "...theo phong cách..."

Một số kiểu đã trở thành biểu tượng qua nhiều năm. Sau đây là một số ý tưởng về phong cách hội họa hoặc nghệ thuật lịch sử mà bạn có thể thử.

"tạo hình ảnh theo kiểu [art period or movement] : trang trại gió"

hình ảnh ví dụ về trường phái ấn tượng
Câu lệnh: tạo hình ảnh theo phong cách hội hoạ trường phái ấn tượng: một trang trại gió
hình ảnh ví dụ về thời phục hưng
Câu lệnh: tạo hình ảnh theo phong cách bức tranh thời Phục hưng: một trang trại gió
hình ảnh ví dụ về nghệ thuật đại chúng
Câu lệnh: tạo hình ảnh theo phong cách nghệ thuật đại chúng: một trang trại gió

Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.

Đối tượng sửa đổi chất lượng hình ảnh

Một số từ khoá nhất định có thể cho mô hình biết rằng bạn đang tìm kiếm một thành phần chất lượng cao. Sau đây là một số ví dụ về đối tượng sửa đổi chất lượng:

  • Đối tượng sửa đổi chungchất lượng cao, đẹp, được cách điệu
  • Ảnh4K, HDR, Ảnh chụp trong Studio
  • Hình minh hoạ, hình minh hoạdo một chuyên gia thực hiện, chi tiết

Sau đây là một số ví dụ về lời nhắc không có đối tượng sửa đổi chất lượng và cùng một lời nhắc có đối tượng sửa đổi chất lượng.

hình ảnh ví dụ về ngô không có đối tượng sửa đổi
Lời nhắc (không có đối tượng sửa đổi chất lượng): ảnh chụp một cây ngô
hình ảnh ví dụ về ngô có đối tượng sửa đổi
Câu lệnh (có đối tượng sửa đổi chất lượng): Ảnh
đẹp mắt 4K HDR
về một cây ngô do một nhiếp ảnh gia chuyên nghiệp
chụp

Nguồn hình ảnh: Mỗi hình ảnh được tạo bằng cách sử dụng câu lệnh dạng văn bản tương ứng với mô hình Imagen 3.

Tỷ lệ khung hình

Tính năng tạo hình ảnh bằng Imagen 3 cho phép bạn đặt 5 tỷ lệ khung hình hình ảnh riêng biệt.

  1. Vuông (1:1, mặc định) – Ảnh vuông tiêu chuẩn. Tỷ lệ khung hình này thường được dùng cho bài đăng trên mạng xã hội.
  2. Toàn màn hình (4:3) – Tỷ lệ khung hình này thường được dùng trong nội dung nghe nhìn hoặc phim. Đây cũng là kích thước của hầu hết TV cũ (không phải màn hình rộng) và máy ảnh định dạng trung bình. Tỷ lệ này giúp chụp được nhiều cảnh hơn theo chiều ngang (so với tỷ lệ 1:1), nên đây là tỷ lệ khung hình ưu tiên cho việc chụp ảnh.

    ví dụ về tỷ lệ khung hình
    Câu lệnh: cảnh cận cảnh các ngón tay của một nhạc sĩ đang chơi piano, phim đen trắng, kiểu cổ điển (tỷ lệ khung hình 4:3)
    ví dụ về tỷ lệ khung hình
    Câu lệnh: Ảnh chụp chuyên nghiệp trong studio về khoai tây chiên của một nhà hàng cao cấp, theo phong cách tạp chí ẩm thực (tỷ lệ khung hình 4:3)
  3. Toàn màn hình dọc (3:4) – Đây là tỷ lệ khung hình toàn màn hình được xoay 90 độ. Điều này giúp bạn chụp được nhiều cảnh hơn theo chiều dọc so với tỷ lệ khung hình 1:1.

    ví dụ về tỷ lệ khung hình
    Câu lệnh: một người phụ nữ đi bộ đường dài, cảnh cận cảnh đôi bốt của cô phản chiếu trong vũng nước, những ngọn núi lớn ở hậu cảnh, theo phong cách quảng cáo, góc độ ấn tượng (tỷ lệ khung hình 3:4)
    ví dụ về tỷ lệ khung hình
    Lời nhắc: cảnh quay trên không của một dòng sông chảy qua một thung lũng huyền bí (tỷ lệ khung hình 3:4)
  4. Màn hình rộng (16:9) – Tỷ lệ này đã thay thế tỷ lệ 4:3 và hiện là tỷ lệ khung hình phổ biến nhất cho TV, màn hình và màn hình điện thoại di động (ngang). Sử dụng tỷ lệ khung hình này khi bạn muốn chụp nhiều cảnh nền hơn (ví dụ: phong cảnh).

    ví dụ về tỷ lệ khung hình
    Câu lệnh: một người đàn ông mặc toàn bộ trang phục màu trắng ngồi trên bãi biển, cận cảnh, ánh sáng vàng (tỷ lệ khung hình 16:9)
  5. Dọc (9:16) – Tỷ lệ này là màn hình rộng nhưng được xoay. Đây là một tỷ lệ khung hình tương đối mới, được các ứng dụng video ngắn phổ biến (ví dụ: YouTube Shorts) sử dụng. Sử dụng chế độ này cho các đối tượng cao có hướng dọc rõ ràng, chẳng hạn như toà nhà, cây cối, thác nước hoặc các đối tượng tương tự khác.

    ví dụ về tỷ lệ khung hình
    Câu lệnh: hình ảnh kết xuất kỹ thuật số của một toà nhà chọc trời khổng lồ, hiện đại, đồ sộ, hoành tráng với cảnh hoàng hôn tuyệt đẹp ở nền sau (tỷ lệ khung hình 9:16)

Hình ảnh chân thực

Các phiên bản khác nhau của mô hình tạo hình ảnh có thể cung cấp kết quả kết hợp giữa nghệ thuật và ảnh chân thực. Sử dụng các từ sau trong câu lệnh để tạo ra kết quả chân thực hơn, dựa trên chủ thể mà bạn muốn tạo.

Trường hợp sử dụng Loại ống kính Tiêu cự Thông tin chi tiết khác
Người (ảnh chân dung) Chế độ chính, thu phóng 24-35mm phim đen trắng, phim đen, độ sâu trường ảnh, hai tông màu (nhắc đến hai màu)
Thức ăn, côn trùng, thực vật (đối tượng, tĩnh vật) Macro 60-105mm Độ chi tiết cao, lấy nét chính xác, ánh sáng được kiểm soát
Thể thao, động vật hoang dã (ảnh động) Thu phóng tele 100-400mm Tốc độ màn trập nhanh, Theo dõi chuyển động hoặc hành động
Thiên văn, ngang (góc rộng) Ống kính góc rộng 10-24mm Thời gian phơi sáng lâu, tiêu điểm sắc nét, phơi sáng lâu, nước hoặc mây mượt

Chân dung

Trường hợp sử dụng Loại ống kính Tiêu cự Thông tin chi tiết khác
Người (ảnh chân dung) Chế độ chính, thu phóng 24-35mm phim đen trắng, phim đen, độ sâu trường ảnh, hai tông màu (nhắc đến hai màu)

Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo ra các bức chân dung sau:

ví dụ về ảnh chân dung ví dụ về ảnh chân dung ví dụ về ảnh chân dung ví dụ về ảnh chân dung

Câu lệnh: Một người phụ nữ, ảnh chân dung 35mm, hai tông màu xanh dương và xám
Mẫu: imagen-3.0-generate-002

ví dụ về ảnh chân dung ví dụ về ảnh chân dung ví dụ về ảnh chân dung ví dụ về ảnh chân dung

Câu lệnh: Một người phụ nữ, chân dung 35mm, phim đen
Mẫu: imagen-3.0-generate-002

Đối tượng

Trường hợp sử dụng Loại ống kính Tiêu cự Thông tin chi tiết khác
Thức ăn, côn trùng, thực vật (đối tượng, tĩnh vật) Macro 60-105mm Độ chi tiết cao, lấy nét chính xác, ánh sáng được kiểm soát

Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo các hình ảnh đối tượng sau:

ví dụ về chụp ảnh đối tượng ví dụ về chụp ảnh đối tượng ví dụ về chụp ảnh đối tượng ví dụ về chụp ảnh đối tượng

Lời nhắc: lá cây cầu nguyện, ống kính macro, 60mm
Mẫu: imagen-3.0-generate-002

ví dụ về chụp ảnh đối tượng ví dụ về chụp ảnh đối tượng ví dụ về chụp ảnh đối tượng ví dụ về chụp ảnh đối tượng

Lời nhắc: một đĩa mì ống, ống kính Macro 100mm
Mẫu: imagen-3.0-generate-002

Có chuyển động

Trường hợp sử dụng Loại ống kính Tiêu cự Thông tin chi tiết khác
Thể thao, động vật hoang dã (ảnh động) Thu phóng tele 100-400mm Tốc độ màn trập nhanh, Theo dõi chuyển động hoặc hành động

Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo các ảnh động sau:

ví dụ về ảnh chuyển động ví dụ về ảnh chuyển động ví dụ về ảnh chuyển động ví dụ về ảnh chuyển động

Lời nhắc: một cú chạm bóng thắng lợi, tốc độ chụp nhanh, theo dõi chuyển động
Mô hình: imagen-3.0-generate-002

ví dụ về ảnh chuyển động ví dụ về ảnh chuyển động ví dụ về ảnh chuyển động ví dụ về ảnh chuyển động

Câu lệnh: Một con nai đang chạy trong rừng, tốc độ màn trập nhanh, theo dõi chuyển động
Mô hình: imagen-3.0-generate-002

Ống kính góc rộng

Trường hợp sử dụng Loại ống kính Tiêu cự Thông tin chi tiết khác
Thiên văn, ngang (góc rộng) Ống kính góc rộng 10-24mm Thời gian phơi sáng lâu, tiêu điểm sắc nét, phơi sáng lâu, nước hoặc mây mượt

Bằng cách sử dụng một số từ khoá trong bảng, Imagen có thể tạo ra các hình ảnh góc rộng sau:

ví dụ về ảnh chụp góc rộng ví dụ về ảnh chụp góc rộng ví dụ về ảnh chụp góc rộng ví dụ về ảnh chụp góc rộng

Lời nhắc: một dãy núi rộng lớn, góc rộng 10mm theo chiều ngang
Mô hình: imagen-3.0-generate-002

ví dụ về ảnh chụp góc rộng ví dụ về ảnh chụp góc rộng ví dụ về ảnh chụp góc rộng ví dụ về ảnh chụp góc rộng

Câu lệnh: ảnh mặt trăng, ảnh thiên văn, góc rộng 10mm
Mẫu: imagen-3.0-generate-002

Bước tiếp theo