基于LLM与本地Pandas的实验demo：从0到1构建混合式数据分析引擎

最新推荐文章于 2025-08-05 21:13:50 发布

超人阿亚

最新推荐文章于 2025-08-05 21:13:50 发布

阅读量579

点赞数 8

CC 4.0 BY-SA版权

文章标签： pandas 数据分析数据挖掘

本文链接：https://blog.csdn.net/xiaonie1986/article/details/149914940

公众号：dify实验室

基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。

大家好，我是dify实验室的阿亚。在思路探索：当大型语言模型遇见数据分析的现实挑战文章中，我们分享了构建智能数据分析引擎的宏大构想：让大模型（LLM）成为“翻译官”，将自然语言指令转化为代码，再由本地高性能的Pandas库负责执行复杂的计算任务。今天，我将带大家深入到工程实践的细节，从零开始，手把手构建一个稳定、高效且安全的实验Demo。

一、核心组件：本地Pandas API服务的构建

要让大模型“指挥”本地程序，我们需要先搭建一个能接收指令并执行计算的后端服务。我们选择了轻量级的 Flask 框架，它能让我们快速搭建一个API接口，就像为Pandas装上一个“远程控制台”。

1.1 环境隔离：为项目打造一个“干净”的家

为了避免不同项目间的依赖冲突，也为了保证环境的纯净，我们从专业的Python开发习惯开始，创建一个独立的虚拟环境。

# 在项目根目录创建名为venv的虚拟环境
python -m venv venv

# 激活虚拟环境 (Windows PowerShell)
.\venv\Scripts\activate

在这个环境中，我们接下来的所有操作，都将只影响这个项目，就像是把我们的实验工具放进了一个专用的工具箱。

1.2 核心依赖安装：让服务拥有“大脑”和“双手”

我们的API服务只需要两个核心库：Flask，作为Web服务的骨架；Pandas，作为处理数据的强大核心。

pip install Flask pandas

1.3 API接口设计：让大模型找到“指挥台”

我们设计了一个简洁的API接口 execute_on_data，它通过 POST 方法接收一个 JSON 请求。这个请求体就像一份完整的“工作指令”，包含了两个关键信息：code（大模型生成的Pandas代码）和 csv_data（待分析的全部数据内容）。

以下是我们经过多次迭代，最终稳定运行的服务端核心代码结构：

from flask import Flask, request, jsonify
import pandas as pd
import io, json, traceback

app = Flask(__name__)

# 关键配置：确保返回的JSON能正确显示中文
app.json.ensure_ascii = False

# ...
# 这里省略了我们用于解析Dify传入不规范数据的健壮解析函数
# ...

@app.route('/execute_on_data', methods=['POST'])
def execute_on_on_data():
    try:
        # 1. 接收大模型的指令与数据
        data = request.get_json()
        code_to_execute = data['code']
        raw_data_string = data['csv_data']

        # 2. 数据解析与清洗
        # 我们的函数能处理Dify传入的各种复杂格式，
        # 最终返回一个列名干净、数据正确的DataFrame
        df = parse_and_clean_data(raw_data_string)
        if df.empty:
            return jsonify({"status": "error", "message": "解析后的DataFrame为空"}), 400

        # 3. 动态执行代码
        # 将df和pd作为本地变量，安全地执行大模型生成的代码
        local_vars = {'df': df, 'pd': pd}
        exec(code_to_execute, globals(), local_vars)
        result = local_vars.get('result')

        # 4. 结果序列化并返回
        # 使用Pandas的to_json方法，将计算结果优雅地转为JSON
        final_result = result.to_json(orient='records', force_ascii=False)

        return jsonify({"status": "success", "result": final_result})

    except Exception as e:
        # 在调试模式下，打印完整错误堆栈，方便快速定位问题
        traceback.print_exc()
        return jsonify({"status": "error", "message": str(e)}), 500

if __name__ == '__main__':
    # 启动服务，并开启调试模式
    app.run(host='0.0.0.0', port=5000, debug=True)

通过简单的 python app.py 命令，一个轻量级的本地计算中心便搭建完成了。它不仅具备强大的计算能力，还通过精细的错误处理，为我们后续的联调提供了极大的便利。

二、Dify工作流编排：让“翻译”与“计算”无缝衔接

在Dify的可视化工作流编排界面，我们将这个本地API服务作为核心节点，构建了一个端到端的数据分析自动化流水线。

架构核心思想：将任务分解，让每个组件各司其职。LLM只负责理解语言和生成代码，而我们的本地API则负责安全、高效地执行代码和处理海量数据。

2.1 流水线节点设计：一个“智慧”的协作流程

开始节点
作为整个流程的起点，它接收两个输入变量：用户上传的Excel文件，以及用户的自然语言分析请求。
HTTP请求节点（数据预处理）
这个节点调用Dify内置的文件预览API，将用户上传的Excel文件转换为CSV文本，并仅截取前10行作为数据样本。这一步是整个方案的精髓：我们让大模型“看样本”，而不是“背数据”，极大地节省了成本和时间。
大型语言模型节点（代码生成）
这是整个系统的“翻译官”。它接收上一步的数据样本和用户的分析请求，通过我们精心设计的Prompt，生成一段纯粹、可执行的Pandas代码。我们通过强制性的指令，确保模型输出不含任何Markdown标记，从而让后端的exec()函数能够顺利执行。
HTTP请求节点（核心计算）
这个节点调用我们本地部署的Pandas API服务。它的请求体包含了LLM生成的code和“开始”节点传入的完整数据csv_data。注意： 当Dify和API服务都通过Docker本地部署时，API访问URL需要使用Docker内部的DNS名称 http://host.docker.internal:5000，才能实现容器间的正确通信。
大型语言模型节点（报告生成）
最后，这个节点接收本地API返回的精确计算结果（JSON格式），并根据用户的原始问题，将其解读为一段通俗易懂的分析报告，完美地完成了任务闭环。

三、关键技术决策与最终成果

在整个实践过程中，我们做出的一些关键决策，最终保证了系统的稳定性和健壮性：

数据安全与成本控制
我们始终将海量原始数据的处理任务保留在本地，仅将少量脱敏的样本数据传递给LLM。这既保障了数据安全，又大大降低了调用成本和响应延迟。
API的健壮性
我们花大力气编写了强大的数据清洗函数，让本地API能够容忍Dify端传入的、可能不完全规范的文本数据格式，避免了因格式问题导致的系统崩溃。
高效的调试
充分利用Flask的调试模式和traceback模块，使得我们能够快速定位并解决深层次的问题，显著加快了开发迭代周期。

最终，我们成功构建了一个闭环、自动化的数据分析系统。用户只需通过自然语言交互，即可在几秒钟内获得对大型Excel文件的深度分析结果。这套架构不仅验证了我们最初的设想，也为未来集成更复杂的数据源和高级分析模型奠定了坚实的基础。

希望这份详尽的实践分享，能为正在探索AI应用边界的你提供一份可供参考的技术蓝图。我们相信，通过将LLM的语言能力与专业工具的计算能力进行创造性地结合，将是未来智能应用发展的核心趋势之一。