使用Psychic加载和处理文档的完整指南

最新推荐文章于 2025-08-05 15:21:50 发布

weixin_43212959

最新推荐文章于 2025-08-05 15:21:50 发布

阅读量501

点赞数 18

CC 4.0 BY-SA版权

文章标签：前端服务器 linux

本文链接：https://blog.csdn.net/weixin_43212959/article/details/148893907

在本篇文章中，我们将深入探讨如何使用Psychic来加载文档，并将这些文档转换为可用于机器学习应用的嵌入向量。通过这一过程，您可以在自己的应用中实现智能问答和信息检索功能。

技术背景介绍

Psychic是一种强大的工具，允许开发者从多种SaaS应用中连接和加载文档数据。通过其API，我们可以轻松地集成不同的数据源，并将数据转换为有用的格式。

核心原理解析

Psychic通过使用PsychicLoader类实现文档加载。每个连接包含一个connector_id，对应于连接的SaaS应用，以及一个connection_id，用于标识特定的连接实例。

代码实现演示

首先，我们需要确保安装必要的库。如果还没有安装psychicapi和langchain-chroma，请运行以下命令：

!poetry run pip -q install psychicapi langchain-chroma

然后，我们可以通过如下代码加载文档：

from langchain_community.document_loaders import PsychicLoader
from psychicapi import ConnectorId
from langchain.chains import RetrievalQAWithSourcesChain
from langchain_chroma import Chroma
from langchain_openai import OpenAI, OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 使用PsychicLoader加载Google Drive文档
google_drive_loader = PsychicLoader(
    api_key="your-secret-key",  # 使用您自己的API密钥
    connector_id=ConnectorId.gdrive.value,
    connection_id="your-connection-id",  # 使用您的连接ID
)

# 加载文档
documents = google_drive_loader.load()

# 拆分文档为小块
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 将文档转化为嵌入
embeddings = OpenAIEmbeddings()
# 使用Chroma存储嵌入向量
docsearch = Chroma.from_documents(texts, embeddings)
# 创建问答链
chain = RetrievalQAWithSourcesChain.from_chain_type(
    OpenAI(temperature=0), chain_type="stuff", retriever=docsearch.as_retriever()
)

# 提问并获取答案
response = chain({"question": "What is Psychic?"}, return_only_outputs=True)
print(response)