graphrag流程图
时间: 2025-04-29 12:49:48 浏览: 21
### 关于 GraphRAG 工作流程
GraphRAG 的工作流程涉及多个阶段,每个阶段都有特定的任务来处理和转换数据。具体来说:
- **Loading Input**: 负责加载输入数据[^3]。
- **创建基础文本单元 (create_base_text_units)**: 将原始文本分割成更小的可管理部分。
- **基础实体提取 (create_base_extracted_entities)**: 提取并保存基本实体信息至 `create_base_extracted_entities.parquet` 文件中。此文件仅有一行记录,代表了一个采用 GraphML 格式的图表示形式[^1]。
- **实体汇总 (create_summarized_entities)**: 对已识别的基础实体进行总结归纳。
- **创建基础实体图 (create_base_entity_graph)**: 构建初步的知识图表结构。
- **创建最终实体集 (create_final_entities)** 和 **创建最终节点 (create_final_nodes)**: 完善实体定义及其在网络中的位置描述。
- **创建最终社区 (create_final_communities)** 及 **创建最终关系 (create_final_relationships)**: 明确不同实体间的联系模式与社群划分情况。
- **创建最终文本单元 (create_final_text_units)** 以及 **创建最终文档 (create_final_documents)**: 形成经过加工后的文本资料集合。
为了更好地理解这些步骤,在实际操作过程中通常会利用工具和技术辅助完成任务。例如,UMAP 技术被用来降低维度以便直观展示图形化结果,并通过嵌入方式存储节点坐标信息[^2]。
#### 示例代码片段用于说明如何读取 Parquet 文件
```python
import pandas as pd
# 加载 create_base_extracted_entities.parquet 文件
df = pd.read_parquet('path/to/create_base_extracted_entities.parquet')
print(df.head())
```
阅读全文
相关推荐

















