使用 Trubrics 收集和分析 AI 模型的用户反馈-CSDN博客

在本文中，我们将介绍如何使用 Trubrics 平台来收集、分析和管理用户对 AI 模型的提示和反馈。通过接入 Trubrics 的框架，可以轻松将用户交互数据同步到云端，帮助开发者更好地优化和监控模型表现。

技术背景介绍

当部署大型语言模型(LLM)或聊天模型时，衡量用户体验和收集反馈至关重要。Trubrics 提供了一个平台，允许开发者记录用户输入（prompts）、模型响应以及用户反馈，这使得可以轻松跟踪模型的表现并进行改进。

核心原理解析

Trubrics 的核心功能通过 TrubricsCallbackHandler 实现，该回调处理器会自动将用户与模型的交互日志记录到 Trubrics 平台。开发者可以通过 Trubrics 的 Web 界面对这些数据进行分析。

该工具特别适合以下场景：

调试模型生成的结果
收集用户反馈
分析模型性能
为未来的改进提供数据支持

代码实现演示

环境准备与安装

首先，安装必要的 Python 包：

%pip install --upgrade --quiet trubrics langchain langchain-community

设置 Trubrics 凭证

如果您还没有 Trubrics 账户，请在这里注册。
使用账户信息创建凭证，并通过环境变量进行配置：

import os

os.environ["TRUBRICS_EMAIL"] = "your-email@example.com"  # 替换为您的 Trubrics 邮箱
os.environ["TRUBRICS_PASSWORD"] = "your-password"        # 替换为您的 Trubrics 密码

接入回调处理器

示例 1：与 LLM 模型结合

以下是将 TrubricsCallbackHandler 应用到 LangChain 的 LLM 模型的示例代码，使用了 OpenAI 的接口：

import os
from langchain_openai import OpenAI
from langchain_community.callbacks.trubrics_callback import TrubricsCallbackHandler

# 设置 OpenAI API 密钥
os.environ["OPENAI_API_KEY"] = "sk-***"  # 替换为您的 OpenAI 密钥

# 初始化 LLM，并添加 Trubrics 回调
llm = OpenAI(callbacks=[TrubricsCallbackHandler()])

# 提供用户请求并生成响应
responses = llm.generate(["Tell me a joke", "Write me a poem"])

# 解析并打印响应
print("--> GPT's joke: ", responses.generations[0][0].text)
print("--> GPT's poem: ", responses.generations[1][0].text)

运行该示例时，Trubrics 会将用户提示、模型生成的响应以及其他元数据同步至云端。

示例 2：与聊天模型结合

假设您在创建一个更复杂的聊天模型，可以添加自定义元数据字段（如项目名称、用户 ID 等）：

from langchain_core.messages import HumanMessage, SystemMessage
from langchain_openai import ChatOpenAI
from langchain_community.callbacks.trubrics_callback import TrubricsCallbackHandler

# 初始化 Chat 模型，并添加 Trubrics 回调
chat_llm = ChatOpenAI(
    callbacks=[
        TrubricsCallbackHandler(
            project="default",
            tags=["chat model"],
            user_id="user-id-1234",
            some_metadata={"example_key": [1, 2]},
        )
    ]
)

# 构造对话上下文
chat_responses = chat_llm.invoke(
    [
        SystemMessage(content="Every answer of yours must be about OpenAI."),
        HumanMessage(content="Tell me a joke"),
    ]
)

# 打印聊天生成的响应
print(chat_responses.content)

输出示例：

Why did the OpenAI computer go to the party?
Because it wanted to meet its AI friends and have a byte of fun!

通过这种方式，可以对聊天模型的每一次响应记录其上下文及反馈。

应用场景分析

模型性能优化：通过收集用户提示和反馈，可以发现模型生成中的常见错误，并改进 prompt 设计。
质量监控：在生产环境中，实时跟踪用户交互情况，识别潜在问题。
用户研究：分析用户的输入模式、常见问题及模型表现，从而更好地服务于用户需求。

实践建议

安全性：在生产环境中，切勿硬编码账户和密钥。建议使用安全存储服务（如 AWS Secrets Manager 或环境变量）。
性能监控：将用户提示和反馈作为指标之一，结合其他监控工具，全面评估模型表现。
数据隐私：确保用户交互数据符合隐私合规要求，例如 GDPR。

总结

通过 Trubrics 与 LangChain 的结合，您可以轻松采集和管理用户对模型的交互和反馈数据。如果您正在构建 LLM 或聊天系统，这将是一个不可或缺的工具。

如果遇到问题欢迎在评论区交流。

—END—