从0到1搭建企业级智能客户关系AI系统：架构师3个月实战手记（含代码片段）-CSDN博客

从0到1搭建企业级智能客户关系AI系统：架构师3个月实战手记（含代码片段）

1. 引入与连接：为什么企业需要「智能CRM」？

1.1 一个真实的业务痛点

去年Q3，我接到某零售企业的需求：

客户数据散落在CRM、APP、官网、客服系统中，像“信息孤岛”；
客服响应慢，用户问“我的订单在哪”要查3个系统；
营销活动靠“拍脑袋”，给新用户推老年产品，转化率不到1%；
高价值客户流失率达15%，却不知道“谁会走、为什么走”。

这不是个案——传统CRM的核心是“记录客户”，而智能CRM的核心是“理解客户”：用AI把零散数据变成“可行动的 insights”，让企业从“被动响应”转向“主动服务”。

1.2 智能客户关系AI系统（ICRAS）的核心价值

我给系统下了个定义：以客户为中心，通过数据驱动的AI模型，实现“精准洞察-智能决策-自动化执行”的闭环系统。它能解决3类核心问题：

知客户：用户画像是“数字身份证”，比如“25岁女性，最近30天浏览过口红，月消费500元”；
懂需求：推荐系统像“专属导购”，给刚买了婴儿车的用户推纸尿裤；
防流失：预测模型是“预警雷达”，提前30天识别高流失风险客户，推送挽留券。

1.3 3个月的学习路径预览

这篇手记会按照**“数据基建→智能核心→应用落地”**的时间线展开，你会看到：

第1个月：如何搭建“不塌的地基”——数据层；
第2个月：如何打造“会思考的大脑”——智能层；
第3个月：如何连接“业务的双手”——应用层；
全程穿插真实代码片段、踩坑记录、优化技巧。

2. 概念地图：ICRAS的“三层金字塔”架构

在动手前，先画一张系统架构图（见图1），明确各模块的职责和关系——这是避免“混乱开发”的关键。

层级	核心模块	职责说明
数据层	数据采集、ETL、数据仓库	收集/清洗/存储客户全链路数据
智能层	用户画像、推荐系统、对话机器人、预测模型	用AI生成“可行动的 insights”
应用层	CRM集成、营销自动化、客户服务	将智能能力转化为业务功能（比如自动发券）

关键概念澄清

不是“取代人”，而是“辅助人”：比如对话机器人处理80%的简单问题（查订单、问库存），剩下20%复杂问题转人工；
不是“数据越多越好”，而是“高质量数据”：100条准确的行为数据，比1000条重复的无效数据更有价值；
不是“纯技术项目”，而是“业务+技术”项目：所有AI模型都要对齐业务目标（比如“提升转化率”“降低流失率”）。

3. 基础理解：用“生活化类比”搞懂核心概念

在讲技术细节前，先通过类比建立直观认知：

3.1 数据层=“数据超市”

数据采集：像“采购员”，从CRM、APP、官网收集“原材料”（用户注册信息、点击行为、交易记录）；
ETL（Extract-Transform-Load）：像“分拣员”，把“烂苹果”（重复数据、缺失值）挑出来，把“散鸡蛋”（不同格式数据）装进统一的“盒子”（标准化格式）；
数据仓库：像“超市货架”，把数据分类放好（比如“用户维度表”“行为事实表”），方便后面“取用”。

3.2 智能层=“客户大脑”

用户画像：像“客户的简历”，用标签（比如“活跃用户”“母婴人群”）总结客户特征；
推荐系统：像“导购员”，根据客户的“简历”推荐商品（比如给“母婴人群”推纸尿裤）；
对话机器人：像“前台接待”，回答常见问题，引导客户找到需要的服务；
预测模型：像“预言家”，根据历史数据预测未来（比如“这个客户下个月流失的概率是80%”）。

3.3 应用层=“业务抓手”

CRM集成：把智能能力“塞进”现有CRM系统，让销售看到“这个客户是高价值，要重点跟进”；
营销自动化：像“自动发券机”，当客户3天未登录时，自动推送“满100减20”的优惠券；
客户服务：像“智能客服台”，用户在微信上问“我的订单在哪”，机器人自动查订单状态并回复。

4. 层层深入：3个月实战全流程

接下来，我会按照**“第1个月→数据基建”“第2个月→智能核心”“第3个月→应用落地”的时间线，详细讲解每个环节的技术选型、实现步骤、踩坑记录**。

4.1 第1个月：数据基建——搭建“不塌的地基”

目标：把零散的客户数据变成“干净、可复用”的结构化数据。
关键词：ETL、数据仓库、数据质量监控。

4.1.1 第一步：数据采集——“网罗所有客户数据”

企业的客户数据通常分布在这些地方：

结构化数据：CRM（用户注册信息、交易记录）、ERP（订单数据）；
半结构化数据：APP埋点（点击、浏览、收藏）、官网日志（访问路径）；
非结构化数据：客服录音、用户评论、微信聊天记录。

技术选型：

结构化数据：用Apache Sqoop从MySQL/Oracle同步到Hadoop；
半结构化数据：用Apache Flume收集日志文件到HDFS；
非结构化数据：用Elasticsearch存储文本（比如客服记录），用MinIO存储图片/语音。

踩坑记录：

问题：APP埋点数据重复（同一用户多次触发同一事件）；
解决：给每条埋点数据加唯一哈希值（比如user_id+event_time+event_type的MD5），去重后再存储。

4.1.2 第二步：ETL——“把脏数据变成干净数据”

ETL是数据基建的核心，我用Apache Airflow做调度（可视化监控任务状态），用PySpark做数据处理。

ETL流程示例（以“用户行为数据”为例）：

Extract：从HDFS读取原始埋点数据；
Transform：
- 缺失值处理：用“最近7天的平均值”填充用户年龄；
- 重复值处理：用哈希值去重；
- 格式转换：把“event_time”从字符串转成 timestamp；
Load：把处理后的数据写入数据仓库（用Snowflake，云原生数据仓库，支持快速查询）。

代码片段：Airflow ETL DAG

from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime, timedelta
from pyspark.sql import SparkSession
import pandas as pd

# 初始化Spark会话
def init_spark():
    return SparkSession.builder.appName("UserBehaviorETL").getOrCreate()

# 提取：从HDFS读取原始数据
def extract(spark):
    return spark.read.parquet("hdfs://cluster:9000/raw/user-behavior/")

# 转换：清洗+格式化
def transform(df):
    from pyspark.sql.functions import col, md5, concat, to_timestamp
    # 去重：用user_id+event_time+event_type生成唯一哈希
    df = df.withColumn("unique_id", md5(concat(col("user_id"), col("event_time"), col("event_type"))))
    df = df.dropDuplicates(["unique_id"])
    # 格式转换：event_time转timestamp
    df = df.withColumn("event_time", to_timestamp(col("event_time"), "yyyy-MM-dd HH:mm:ss"))
    # 缺失值处理：年龄用平均值填充
    avg_age = df.selectExpr("avg(age) as avg_age").collect()[0]["avg_age"]
    df = df.fillna({"age": avg_age})
    return df

# 加载：写入Snowflake
def load(df):
    df.write \
      .format("net.snowflake.spark.snowflake") \
      .options(**{
          "sfUrl": "your-snowflake-url",
          "sfUser": "your-user",
          "sfPassword": "your-password",
          "sfDatabase": "customer_db",
          "sfSchema": "user_behavior",
          "sfWarehouse": "compute_wh"
      }) \
      .mode("overwrite") \
      .saveAsTable("user_behavior_cleaned")

# Airflow DAG定义
default_args = {
    "owner": "airflow",
    "start_date": datetime(2024, 1, 1),
    "retries": 1,
    "retry_delay": timedelta(minutes=5),
}

with DAG(
    dag_id="user_behavior_etl",
    default_args=default_args,
    schedule_interval=timedelta(days=1),
    catchup=False
) as dag:

    init_spark_task = PythonOperator(
        task_id="init_spark",
        python_callable=init_spark
    )

    extract_task = PythonOperator(
        task_id="extract",
        python_callable=extract,
        op_kwargs={"spark": "{{ ti.xcom_pull(task_ids='init_spark') }}"}
    )

    transform_task = PythonOperator(
        task_id="transform",
        python_callable=transform,
        op_kwargs={"df": "{{ ti.xcom_pull(task_ids='extract') }}"}
    )

    load_task = PythonOperator(
        task_id="load",
        python_callable=load,
        op_kwargs={"df": "{{ ti.xcom_pull(task_ids='transform') }}"}
    )

    # 任务依赖：init → extract → transform → load
    init_spark_task >> extract_task >> transform_task >> load_task

4.1.3 第三步：数据仓库设计——“给数据建‘货架’”

数据仓库的核心是维度建模（星型模型），我设计了3张核心表：

用户维度表（dim_user）：存储用户静态信息（user_id、年龄、性别、地域、注册时间）；
行为事实表（fact_user_behavior）：存储用户动态行为（user_id、event_type（点击/浏览/购买）、event_time、product_id）；
交易事实表（fact_user_transaction）：存储用户交易数据（user_id、order_id、amount、payment_time、product_id）。

设计原则：

维度表要“宽”（包含所有相关属性），方便查询；
事实表要“细”（每条记录对应一个具体行为/交易），保留原始粒度。

4.1.4 第四步：数据质量监控——“给数据‘体检’”

数据质量是AI模型的“生命线”，我用Great Expectations做监控，定义了3类规则：

完整性：user_id不能为Null；
准确性：age必须在18-65之间；
一致性：fact_user_transaction中的user_id必须存在于dim_user中。

代码片段：Great Expectations规则

# great_expectations/expectations/user_behavior_expectations.json
{
  "expectations": [
    {
      "expectation_type": "expect_column_values_to_not_be_null",
      "kwargs": {
        "column": "user_id"
      }
    },
    {
      "expectation_type": "expect_column_values_to_be_between",
      "kwargs": {
        "column": "age",
        "min_value": 18,
        "max_value": 65
      }
    },
    {
      "expectation_type": "expect_column_values_to_be_in_set",
      "kwargs": {
        "column": "event_type",
        "value_set": ["click", "view", "purchase"]
      }
    }
  ]
}

效果：每天自动运行检查，若数据质量不达标，发送预警邮件给数据工程师。

4.2 第2个月：智能层构建——打造“会思考的大脑”

目标：用AI模型把数据变成“可行动的 insights”。
关键词：用户画像、推荐系统、对话机器人、预测模型。

4.2.1 模块1：用户画像系统——“给客户贴‘数字标签’”

用户画像是所有智能功能的基础，我设计了三层标签体系：

静态标签：不会变的属性（年龄、性别、地域、注册时间）；
动态标签：随行为变化的属性（最近30天登录次数、最近7天浏览的品类）；
预测标签：AI预测的属性（流失概率、高价值客户概率、需求偏好）。

技术实现：

静态标签：用Snowflake SQL从dim_user表计算（比如select user_id, age from dim_user）；
动态标签：用Apache Spark做批量计算（比如最近30天的登录次数）；
预测标签：用XGBoost训练模型（比如流失概率）。

代码片段：计算“用户活跃度”动态标签

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, datediff, current_date

spark = SparkSession.builder.appName("UserActivityLabel").getOrCreate()

# 读取行为事实表
fact_behavior = spark.read.table("customer_db.user_behavior.fact_user_behavior")

# 计算最近30天的登录次数
activity_df = fact_behavior.filter(col("event_type") == "login") \
    .filter(datediff(current_date(), col("event_time")) <= 30) \
    .groupBy("user_id") \
    .agg(count("*").alias("login_count"))

# 生成活跃度标签：login_count>=5→活跃，否则→不活跃
activity_label = activity_df.withColumn(
    "activity_label",
    when(col("login_count") >= 5, "active").otherwise("inactive")
)

# 保存到用户画像表
activity_label.write.mode("overwrite").saveAsTable("customer_db.user_portrait.dim_user_activity")

4.2.2 模块2：推荐系统——“给客户推‘想要的商品’”

推荐系统的核心是**“用户需要什么，就给什么”，我采用混合推荐策略**（内容推荐+协同过滤+上下文推荐）：

内容推荐：根据用户浏览的商品品类，推荐同类商品（比如用户看了口红，推同品牌的唇釉）；
协同过滤：根据“相似用户的行为”推荐（比如用户A和用户B都买了婴儿车，用户B买了纸尿裤，就给用户A推纸尿裤）；
上下文推荐：根据时间/地点推荐（比如夏天推防晒霜，冬天推羽绒服）。

技术实现：

基础模型：用TensorFlow实现矩阵分解（MF）（协同过滤的经典模型）；
线上服务：用TensorFlow Serving部署模型，提供REST API接口。

代码片段：矩阵分解模型定义

import tensorflow as tf
from tensorflow.keras import layers

class MatrixFactorization(tf.keras.Model):
    def __init__(self, num_users, num_items, embedding_dim=32):
        super().__init__()
        # 用户嵌入层：把用户ID映射到低维向量
        self.user_embedding = layers.Embedding(num_users, embedding_dim, name="user_emb")
        # 商品嵌入层：把商品ID映射到低维向量
        self.item_embedding = layers.Embedding(num_items, embedding_dim, name="item_emb")
        # 用户偏置项：捕捉用户的固有偏好
        self.user_bias = layers.Embedding(num_users, 1, name="user_bias")
        # 商品偏置项：捕捉商品的固有热度
        self.item_bias = layers.Embedding(num_items, 1, name="item_bias")

    def call(self, inputs):
        user_id, item_id = inputs
        # 计算用户和商品的嵌入向量
        user_emb = self.user_embedding(user_id)
        item_emb = self.item_embedding(item_id)
        # 计算点积（协同过滤的核心：相似用户/商品的向量点积大）
        dot_product = tf.reduce_sum(user_emb * item_emb, axis=1, keepdims=True)
        # 加上偏置项
        user_b = self.user_bias(user_id)
        item_b = self.item_bias(item_id)
        # 最终预测分数
        return dot_product + user_b + item_b

# 初始化模型
num_users = 10000  # 假设总用户数
num_items = 5000   # 假设总商品数
model = MatrixFactorization(num_users, num_items, embedding_dim=32)

# 编译模型：用MSE损失函数（预测分数与真实评分的差）
model.compile(optimizer=tf.keras.optimizers.Adam(0.001), loss=tf.keras.losses.MeanSquaredError())

踩坑记录：

问题：新用户没有行为数据（冷启动），推荐系统无法工作；
解决：给新用户推荐“热门商品”（最近7天销量TOP10），等用户有行为数据后再切换到个性化推荐。

4.2.3 模块3：对话机器人——“让客户‘开口就能问’”

对话机器人的核心是**“听懂意图，解决问题”，我用Rasa**（开源对话机器人框架）搭建，支持：

意图识别：比如用户说“我的订单在哪”，识别为“ask_order_status”；
槽位填充：提取关键信息（比如订单ID）；
多轮对话：如果用户没说订单ID，机器人会追问“请提供你的订单ID”。

技术实现：

意图识别：用BERT微调（基于中文预训练模型bert-base-chinese）；
槽位填充：用CRF（条件随机场）模型；
线上服务：用Rasa Server部署，支持WebSocket实时通信。

代码片段1：Rasa Domain配置（domain.yml）

version: "3.1"

# 意图：用户可能说的话
intents:
  - greet: # 问候（比如“你好”）
  - goodbye: # 告别（比如“再见”）
  - ask_order_status: # 查订单状态（比如“我的订单在哪”）
  - ask_product_stock: # 查商品库存（比如“口红还有货吗”）

# 实体：需要提取的关键信息
entities:
  - order_id: # 订单ID
  - product_id: # 商品ID

# 槽位：存储实体信息（影响对话流程）
slots:
  order_id:
    type: text
    influence_conversation: true # 缺失时会追问
  product_id:
    type: text
    influence_conversation: true

# 响应：机器人的回答
responses:
  utter_greet:
  - text: "你好！请问有什么可以帮你的？"
  utter_goodbye:
  - text: "再见！欢迎下次再来。"
  utter_ask_order_id:
  - text: "请提供你的订单ID。"
  utter_ask_product_id:
  - text: "请提供你想查询的商品ID。"

# 自定义动作：调用外部API（比如查订单状态）
actions:
  - action_get_order_status
  - action_get_product_stock

代码片段2：自定义动作（action_get_order_status.py）

from rasa_sdk import Action, Tracker
from rasa_sdk.executor import CollectingDispatcher
from rasa_sdk.types import DomainDict
import requests

class ActionGetOrderStatus(Action):
    def name(self) -> str:
        # 动作名称，要和domain.yml中的一致
        return "action_get_order_status"

    def run(self, dispatcher: CollectingDispatcher,
            tracker: Tracker,
            domain: DomainDict) -> list[dict]:
        # 从槽位中获取订单ID
        order_id = tracker.get_slot("order_id")
        if not order_id:
            # 如果没有订单ID，追问用户
            dispatcher.utter_message(response="utter_ask_order_id")
            return []
        
        # 调用订单系统API查询状态
        try:
            response = requests.get(
                url=f"https://api.mycompany.com/orders/{order_id}",
                headers={"Authorization": "Bearer your-token"}
            )
            response.raise_for_status() # 抛出HTTP错误
            order = response.json()
            # 回复用户订单状态
            dispatcher.utter_message(
                text=f"你的订单状态是：{order['status']}\n预计送达时间：{order['delivery_time']}"
            )
        except requests.exceptions.RequestException as e:
            # 处理API调用错误
            dispatcher.utter_message(text="抱歉，查询订单状态失败，请稍后再试。")
        
        return []

4.2.4 模块4：预测模型——“提前预判客户行为”

预测模型的核心是**“用历史数据预测未来”**，我选择了2个高频场景：

客户流失预测：预测用户未来30天流失的概率；
客户价值预测：预测用户未来1年的消费总额（CLV，客户终身价值）。

技术实现：

特征工程：提取时间窗口特征（比如最近30天的消费次数、最近7天的登录次数）、统计特征（比如平均客单价、最大单笔消费）；
模型训练：用XGBoost（效果好、易解释）；
模型评估：用AUC-ROC（流失预测）、RMSE（价值预测）。

代码片段：客户流失预测模型训练

import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

# 1. 加载数据（用户特征+流失标签：1=流失，0=未流失）
data = pd.read_csv("customer_churn_data.csv")
X = data.drop(columns=["user_id", "churn_label"])
y = data["churn_label"]

# 2. 划分训练集和测试集（7:3）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 3. 初始化XGBoost模型
model = xgb.XGBClassifier(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=5,
    objective="binary:logistic", # 二分类任务
    eval_metric="auc" # 评估指标：AUC-ROC
)

# 4. 训练模型
model.fit(X_train, y_train, eval_set=[(X_test, y_test)], early_stopping_rounds=10)

# 5. 评估模型
y_pred_proba = model.predict_proba(X_test)[:, 1]
auc_score = roc_auc_score(y_test, y_pred_proba)
print(f"测试集AUC-ROC分数：{auc_score:.4f}")

# 6. 保存模型（用于线上预测）
model.save_model("churn_prediction_model.json")

效果：流失预测的AUC-ROC达到0.85，能准确识别80%的高流失风险客户。

4.3 第3个月：应用层落地——连接“业务的双手”

目标：把智能能力转化为业务人员能直接使用的功能。
关键词：CRM集成、营销自动化、客户服务、A/B测试。

4.3.1 场景1：CRM集成——“让销售看到‘客户的秘密’”

企业的销售团队每天用CRM系统（比如Salesforce）跟进客户，我把用户画像和预测标签集成到CRM中：

销售打开客户详情页，能看到“用户画像”（比如“25岁女性，母婴人群，最近30天浏览过纸尿裤”）；
能看到“预测标签”（比如“流失概率80%，建议推送挽留券”）。

技术实现：

用RESTful API对接Salesforce（Salesforce提供了丰富的API）；
用Redis做缓存（缓存高频访问的用户画像，提升响应速度）。

代码片段：Flask API接口（获取用户画像）

from flask import Flask, request, jsonify
import redis
import pandas as pd
from pyspark.sql import SparkSession

app = Flask(__name__)

# 初始化Redis缓存（过期时间：1小时）
r = redis.Redis(host="localhost", port=6379, db=0)
CACHE_EXPIRE = 3600

# 初始化Spark会话
spark = SparkSession.builder.appName("UserPortraitAPI").getOrCreate()

@app.route("/api/user/portrait", methods=["GET"])
def get_user_portrait():
    user_id = request.args.get("user_id")
    if not user_id:
        return jsonify({"error": "user_id is required"}), 400
    
    # 先查缓存
    cached_portrait = r.get(f"user_portrait:{user_id}")
    if cached_portrait:
        return jsonify(pd.read_json(cached_portrait).to_dict(orient="records")[0])
    
    # 缓存不存在，从数据仓库查询
    try:
        portrait_df = spark.read.table("customer_db.user_portrait.dim_user_portrait") \
            .filter(f"user_id = '{user_id}'") \
            .toPandas()
        if portrait_df.empty:
            return jsonify({"error": "user not found"}), 404
        
        # 转成JSON，存入缓存
        portrait_json = portrait_df.to_json(orient="records")
        r.setex(f"user_portrait:{user_id}", CACHE_EXPIRE, portrait_json)
        
        return jsonify(portrait_df.to_dict(orient="records")[0])
    except Exception as e:
        return jsonify({"error": str(e)}), 500

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=5000)

4.3.2 场景2：营销自动化——“让系统自动‘做营销’”

营销团队的痛点是“手动发券效率低”，我用Apache Kafka做事件流，实现触发式营销：

当用户触发“3天未登录”事件时，Kafka消费者收到事件，调用推荐系统获取“个性化优惠券”，自动推送到用户的APP消息中心。

技术实现：

事件采集：用Flink CDC从数据库捕获用户行为事件（比如登录事件）；
事件处理：用Kafka Streams过滤“3天未登录”的用户；
执行动作：用Apache Airflow调用发券API。

代码片段：Kafka消费者（处理未登录事件）

from kafka import KafkaConsumer
import json
import requests

# Kafka配置
KAFKA_BOOTSTRAP_SERVERS = "localhost:9092"
KAFKA_TOPIC = "user_inactive_events"
KAFKA_GROUP_ID = "marketing_automation_group"

# 发券API配置
COUPON_API_URL = "https://api.mycompany.com/coupons/send"
COUPON_API_TOKEN = "your-token"

def send_coupon(user_id):
    """调用发券API给用户发送优惠券"""
    payload = {
        "user_id": user_id,
        "coupon_type": "inactive_user",
        "amount": 20, # 优惠券金额：20元
        "min_spend": 100 # 满100可用
    }
    headers = {
        "Authorization": f"Bearer {COUPON_API_TOKEN}",
        "Content-Type": "application/json"
    }
    try:
        response = requests.post(COUPON_API_URL, json=payload, headers=headers)
        response.raise_for_status()
        print(f"成功给用户{user_id}发送优惠券")
    except requests.exceptions.RequestException as e:
        print(f"给用户{user_id}发送优惠券失败：{str(e)}")

def main():
    # 初始化Kafka消费者
    consumer = KafkaConsumer(
        KAFKA_TOPIC,
        bootstrap_servers=KAFKA_BOOTSTRAP_SERVERS,
        group_id=KAFKA_GROUP_ID,
        value_deserializer=lambda m: json.loads(m.decode("utf-8")),
        auto_offset_reset="latest"
    )
    
    print("开始监听未登录事件...")
    for message in consumer:
        event = message.value
        user_id = event["user_id"]
        inactive_days = event["inactive_days"]
        print(f"收到用户{user_id}的未登录事件：已{inactive_days}天未登录")
        
        # 如果未登录天数>=3，发送优惠券
        if inactive_days >= 3:
            send_coupon(user_id)

if __name__ == "__main__":
    main()

4.3.3 场景3：客户服务——“让机器人‘接电话’”

客服团队的痛点是“重复问题太多，占用大量人力”，我把对话机器人接入了3个渠道：

微信公众号：用户发消息给公众号，机器人自动回复；
官网在线客服：用户点击官网“在线客服”，机器人弹出对话窗口；
钉钉群：企业内部员工有问题，也可以@机器人查询。

技术实现：

微信接入：用WeChat Official Account API；
官网接入：用WebSocket（实时通信）；
钉钉接入：用DingTalk Robot API。

代码片段：FastAPI WebSocket端点（官网客服）

from fastapi import FastAPI, WebSocket, WebSocketDisconnect
from rasa.core.agent import Agent
import asyncio

app = FastAPI()

# 加载Rasa机器人模型
agent = Agent.load("models/rasa-model.tar.gz")

class ConnectionManager:
    def __init__(self):
        self.active_connections: list[WebSocket] = []

    async def connect(self, websocket: WebSocket):
        await websocket.accept()
        self.active_connections.append(websocket)

    def disconnect(self, websocket: WebSocket):
        self.active_connections.remove(websocket)

    async def send_personal_message(self, message: str, websocket: WebSocket):
        await websocket.send_text(message)

manager = ConnectionManager()

@app.websocket("/ws/chat")
async def chat_websocket(websocket: WebSocket):
    await manager.connect(websocket)
    try:
        while True:
            # 接收用户消息
            user_message = await websocket.receive_text()
            print(f"收到用户消息：{user_message}")
            
            # 调用Rasa机器人处理消息
            responses = await agent.handle_text(user_message)
            for response in responses:
                bot_message = response.get("text", "")
                if bot_message:
                    # 发送机器人回复
                    await manager.send_personal_message(bot_message, websocket)
    except WebSocketDisconnect:
        manager.disconnect(websocket)
        print("用户断开连接")

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

4.3.4 场景4：A/B测试——“用数据验证效果”

所有功能上线前，都要做A/B测试（比如推荐系统的新旧版本对比），确保功能真的有效。

示例：测试“个性化推荐” vs “热门推荐”的转化率：

对照组（A组）：给用户推热门商品；
实验组（B组）：给用户推个性化商品；
指标：点击转化率（点击推荐商品的用户占比）。

技术实现：

用Google Optimize或Optimizely做A/B测试工具；
用Snowflake分析测试结果（比如计算A组和B组的转化率差异）。

结果：个性化推荐的转化率比热门推荐高15%，确认上线。

5. 多维透视：重新理解智能CRM

5.1 历史视角：从“传统CRM”到“智能CRM”

1.0时代（1990s）：记录型CRM——用数据库存储客户信息；
2.0时代（2010s）：分析型CRM——用BI工具做报表分析；
3.0时代（2020s）：智能型CRM——用AI做预测和自动化。

5.2 实践视角：某零售客户的效果

上线3个月后，客户的核心指标提升：

客户转化率：从1%提升到3%；
客户流失率：从15%下降到10%；
客服效率：机器人处理了80%的简单问题，人工客服的人均处理量提升50%。

5.3 批判视角：智能CRM的局限性

依赖数据质量：如果数据有偏差（比如遗漏了某些用户的行为），模型会“预测错误”；
无法处理复杂情感：比如用户因为“商品质量差”要投诉，机器人无法共情，需要转人工；
数据隐私风险：用户的聊天记录、行为数据需要加密存储（符合GDPR/CCPA）。

5.4 未来视角：智能CRM的发展趋势

大模型融入：用GPT-4优化对话机器人的“情商”（比如更自然的回复）；
多模态数据：整合语音、图像数据（比如用户上传商品问题的照片，用CV识别问题）；
实时智能：用Flink做实时用户画像（比如用户刚浏览了口红，立刻推优惠券）。

6. 实践转化：搭建智能CRM的“方法论”

6.1 5条核心原则

对齐业务目标：不要为了“AI”而做AI，所有功能都要解决具体的业务问题（比如“提升转化率”）；
优先解决核心痛点：先做“用户画像”和“流失预测”，再做“推荐系统”，不要贪大求全；
快速迭代：先做MVP（最小可行产品），比如“只做3个用户标签”“只推热门商品”，再逐步优化；
数据驱动：每个功能都要有指标（比如转化率、流失率），用数据验证效果；
用户参与：让业务人员（销售、营销、客服）参与需求设计，否则系统会“没人用”。

6.2 常见问题的解决方法

问题	解决方法
数据碎片化	建立数据湖，统一数据格式，用元数据管理工具（比如Apache Atlas）
模型效果不好	优化特征工程（增加时间窗口特征）、增加训练数据、调整模型参数
集成困难	用标准化API（RESTful），提前和业务系统对接，制定接口规范
业务人员不会用	做培训（比如“如何看用户画像”）、简化界面（比如把复杂标签变成“高价值客户”）

6.3 实战演练：搭建MVP的步骤

明确目标：比如“降低客户流失率”；
采集数据：收集用户的“注册信息、行为数据、交易数据”；
构建用户画像：计算“最近30天登录次数”“最近7天消费金额”2个标签；
训练流失模型：用XGBoost训练模型，预测流失概率；
集成到CRM：把“流失概率”显示在CRM的客户详情页；
测试迭代：用A/B测试验证“推送挽留券”的效果，调整策略。

7. 整合提升：从“搭建系统”到“理解系统”

7.1 核心观点回顾

数据是基础：没有高质量的数据，再先进的算法也没用；
智能是核心：AI模型要“能解决问题”，而不是“看起来高级”；
应用是关键：系统要“好用”，让业务人员能轻松使用；
闭环是灵魂：数据→智能→应用→数据，形成正向循环。

7.2 知识体系重构

把智能CRM的知识整合为**“3层+4模块+5原则”**：

3层：数据层、智能层、应用层；
4模块：用户画像、推荐系统、对话机器人、预测模型；
5原则：对齐业务、优先痛点、快速迭代、数据驱动、用户参与。

7.3 拓展任务与学习资源

拓展任务

用GPT-4优化对话机器人的意图识别；
开发客户终身价值（CLV）预测模型；
整合语音数据，做语音客服；
用A/B测试优化推荐系统的算法。

学习资源

书籍：
- 《智能CRM：从数字化到智能化》（讲业务逻辑）；
- 《数据仓库工具箱：维度建模权威指南》（讲数据层设计）；
- 《推荐系统实践》（讲推荐系统技术）；
课程：
- Coursera《Machine Learning for Business》（商业场景下的ML）；
- Udacity《Data Engineering Nanodegree》（数据工程基础）；
工具：
- Apache Airflow（ETL调度）；
- Rasa（对话机器人）；
- XGBoost（预测模型）；
- Snowflake（数据仓库）。