发布时间:2025 年 5 月 20 日
说明类视频 | Web | 扩展程序 | Chrome 状态 | 意向 |
---|---|---|---|---|
GitHub | 视图 | 意图进行实验 |
借助 Prompt API,您可以在浏览器中向 Gemini Nano 发送自然语言请求。
您可以通过多种方式使用 Prompt API。在 Web 应用或网站中,您可以创建:
- AI 赋能的搜索:根据网页内容回答问题。
- 个性化新闻 Feed:构建一个 Feed,以便使用类别动态对文章进行分类,并允许用户过滤出相应内容。
以上只是一些可能的用途,我们期待看到您的创作成果。
查看硬件要求
语言检测器 API 和 Translator API 仅适用于桌面版 Chrome。
满足以下条件时,Prompt API、Summarizer API、Writer API 和 Rewriter API 可在 Chrome 中正常运行:
- 操作系统:Windows 10 或 11;macOS 13 或更高版本(Ventura 及更高版本);或 Linux。由 Gemini Nano 支持的 API 尚不支持 Android 版、iOS 版和 ChromeOS 版 Chrome。
- 存储空间:包含 Chrome 个人资料的卷至少有 22 GB 的可用空间。
- GPU:VRAM 必须严格超过 4 GB。
- 网络:无限流量或不计流量的连接。
这些要求适用于您在开发过程中以及使用您构建的功能的用户。
使用 Prompt API
LanguageModel
命名空间中有两个可供您使用的函数:
availability()
以检查模型的功能和可用性。create()
以启动语言模型会话。
模型下载
Prompt API 在 Chrome 中使用 Gemini Nano 模型。虽然该 API 内置于 Chrome 中,但在源首次使用该 API 时,系统会单独下载该模型。
如需确定模型是否已准备就绪,请调用异步 LanguageModel.availability()
函数。此时应返回以下响应中的某一个:
"unavailable"
表示实现不支持请求的选项,或者根本不支持提示语言模型。"downloadable"
表示实现支持请求的选项,但必须先下载一些内容(例如语言模型本身或微调),然后才能使用这些选项创建会话。"downloading"
表示实现支持请求的选项,但需要先完成正在进行的下载操作,然后才能使用这些选项创建会话。"available"
表示实现支持请求的选项,而无需任何新下载。
如需触发模型下载并创建语言模型会话,请调用异步 LanguageModel.availability()
函数。如果对 availability()
的响应为 'downloadable'
,最佳实践是监听下载进度。这样,如果下载需要时间,您就可以通知用户。
const session = await LanguageModel.create({
monitor(m) {
m.addEventListener("downloadprogress", (e) => {
console.log(`Downloaded ${e.loaded * 100}%`);
});
},
});
模型功能
params()
函数会告知您语言模型的参数。该对象具有以下字段:
defaultTopK
:默认的前 K 个值(默认值:3
)。maxTopK
:前 K 个值的数量上限 (8
)。defaultTemperature
:默认温度 (1.0
)。温度值必须介于0.0
和2.0
之间。maxTemperature
:最高温度。
await LanguageModel.params();
// {defaultTopK: 3, maxTopK: 8, defaultTemperature: 1, maxTemperature: 2}
创建会话
Prompt API 可运行后,您可以使用 create()
函数创建会话。您可以使用 prompt()
或 promptStreaming()
函数向模型提示。
自定义会话
您可以使用可选的 options 对象,通过 topK
和 temperature
自定义每个会话。这些参数的默认值会从 LanguageModel.params()
返回。
const params = await LanguageModel.params();
// Initializing a new session must either specify both `topK` and
// `temperature` or neither of them.
const slightlyHighTemperatureSession = await LanguageModel.create({
temperature: Math.max(params.defaultTemperature * 1.2, 2.0),
topK: params.defaultTopK,
});
create()
函数的可选 options 对象还接受 signal
字段,您可以通过该字段传递 AbortSignal
来销毁会话。
const controller = new AbortController();
stopButton.onclick = () => controller.abort();
const session = await LanguageModel.create({
signal: controller.signal,
})
初始提示
借助初始提示,您可以向语言模型提供有关之前互动的上下文,例如,允许用户在浏览器重启后恢复已存会话。
const session = await LanguageModel.create({
initialPrompts: [
{ role: 'system', content: 'You are a helpful and friendly assistant.' },
{ role: 'user', content: 'What is the capital of Italy?' },
{ role: 'assistant', content: 'The capital of Italy is Rome.'},
{ role: 'user', content: 'What language is spoken there?' },
{ role: 'assistant', content: 'The official language of Italy is Italian. [...]' }
]
});
会话次数限制
给定语言模型会话可以处理的词元数有上限。您可以使用会话对象上的以下属性来检查使用情况和达到该上限的进度:
console.log(`${session.inputUsage}/${session.inputQuota}`);
会话持久性
每个会话都会跟踪对话的上下文。系统会将之前的互动纳入未来互动考虑范围,直到会话的上下文窗口已满为止。
const session = await LanguageModel.create({
initialPrompts: [{
role: "system",
content: "You are a friendly, helpful assistant specialized in clothing choices."
}]
});
const result1 = await session.prompt(
"What should I wear today? It is sunny. I am unsure between a t-shirt and a polo."
);
console.log(result1);
const result2 = await session.prompt(
"That sounds great, but oh no, it is actually going to rain! New advice?"
);
console.log(result2);
克隆会话
如需保留资源,您可以使用 clone()
函数克隆现有会话。对话上下文会重置,但初始提示会保持不变。clone()
函数接受一个包含 signal
字段的可选选项对象,以便您传递 AbortSignal
以销毁克隆的会话。
const controller = new AbortController();
stopButton.onclick = () => controller.abort();
const clonedSession = await session.clone({
signal: controller.signal,
});
向模型提示
您可以使用 prompt()
或 promptStreaming()
函数向模型提示。
非流式输出
如果您希望获得简短的结果,可以使用 prompt()
函数,该函数会在有响应时返回响应。
// Start by checking if it's possible to create a session based on the
// availability of the model, and the characteristics of the device.
const {defaultTemperature, maxTemperature, defaultTopK, maxTopK } =
await LanguageModel.params();
const available = await LanguageModel.availability();
if (available !== 'unavailable') {
const session = await LanguageModel.create();
// Prompt the model and wait for the whole result to come back.
const result = await session.prompt("Write me a poem!");
console.log(result);
}
流式输出
如果您希望获得更长的响应,则应使用 promptStreaming()
函数,以便在模型传入部分结果时显示这些结果。promptStreaming()
函数会返回一个 ReadableStream
。
const {defaultTemperature, maxTemperature, defaultTopK, maxTopK } =
await LanguageModel.params();
const available = await LanguageModel.availability();
if (available !== 'unavailable') {
const session = await LanguageModel.create();
// Prompt the model and stream the result:
const stream = session.promptStreaming('Write me an extra-long poem!');
for await (const chunk of stream) {
console.log(chunk);
}
}
停止运行提示
prompt()
和 promptStreaming()
都接受包含 signal
字段的可选第二个参数,以便您停止运行提示。
const controller = new AbortController();
stopButton.onclick = () => controller.abort();
const result = await session.prompt(
'Write me a poem!',
{ signal: controller.signal }
);
终止会话
如果您不再需要会话,请调用 destroy()
以释放资源。会话被销毁后,便无法再使用,并且所有正在执行的操作都会被中止。如果您打算经常向模型提问,则可能需要保留会话,因为创建会话可能需要一些时间。
await session.prompt(
"You are a friendly, helpful assistant specialized in clothing choices."
);
session.destroy();
// The promise is rejected with an error explaining that
// the session is destroyed.
await session.prompt(
"What should I wear today? It is sunny, and I am unsure between a
t-shirt and a polo."
);
多模态功能
Prompt API 支持从 Chrome 138 Canary 获取音频和图片输入,以进行本地实验。该 API 会返回文本输出。
借助这些功能,您可以:
- 允许用户转写在聊天应用中发送的语音消息。
- 描述上传到您网站的图片,以便在说明或替代文本中使用。
const session = await LanguageModel.create({
// { type: "text" } is not necessary to include explicitly, unless
// you also want to include expected input languages for text.
expectedInputs: [
{ type: "audio" },
{ type: "image" }
]
});
const referenceImage = await (await fetch("/reference-image.jpeg")).blob();
const userDrawnImage = document.querySelector("canvas");
const response1 = await session.prompt([{
role: "user",
content: [
{ type: "text", value: "Give a helpful artistic critique of how well the second image matches the first:" },
{ type: "image", value: referenceImage },
{ type: "image", value: userDrawnImage }
]
}]);
console.log(response1);
const audioBlob = await captureMicrophoneInput({ seconds: 10 });
const response2 = await session.prompt([{
role: "user",
content: [
{ type: "text", value: "My response to your critique:" },
{ type: "audio", value: audioBlob }
]
}]);
多模态演示
如需了解如何将 Prompt API 与音频输入搭配使用,请参阅 Mediarecorder 音频提示演示;如需了解如何将 Prompt API 与图片输入搭配使用,请参阅 Canvas 图片提示演示。
反馈
您的反馈有助于我们确定此 API 的未来发展方向,以及改进 Gemini Nano。这甚至可能会产生专用任务 API(例如用于音频转写或图片描述的 API),确保我们能够满足您和用户的需求。
参与并分享反馈
您的反馈将直接影响我们构建和实现此 API 及所有内置 AI API 的未来版本的方式。
- 加入抢先体验计划。
- 如需针对 Chrome 的实现方式提供反馈,请提交bug 报告或功能请求。
- 您可以通过对现有问题进行评论,或在 Prompt API GitHub 代码库中打开新问题,分享您对 API 形态的反馈。
- 加入 Web Incubator 社区群组,参与制定标准。