Python 数据智能实战 (14)：[综合实战] 智能用户分群与精准营销策略生成-CSDN博客

本文链接：https://blog.csdn.net/kakaZhui/article/details/147753542

写在前面

—— 终极演练！从数据到策略，融合 LLM 完成端到端电商用户运营项目

各位数据智能探索者，欢迎来到我们专栏的终极实战关卡！

经过前面一系列的学习和实践，我们已经不再仅仅是数据的处理者和分析者，更是具备了利用大语言模型 (LLM) 这一前沿 AI 技术，从数据中挖掘更深层价值、驱动更智能决策的潜力探索者。我们学会了如何让 Python 与 LLM 对话，如何利用 Embeddings 理解文本语义，如何将 LLM 特征融入传统模型，如何评估效果并坚守安全底线。

本次综合实战目标：构建智能用户分群体系，并驱动个性化营销策略

我们将模拟一个典型的电商运营场景，面临的挑战是：如何在海量用户中识别出不同的细分群体，深刻理解他们的特征和需求，并基于此制定精准、高效、个性化的营销触达策略？

我们将一步步完成以下任务，体验一个 端到端的数据智能项目流程：

业务理解与数据准备： 定义问题，整合所需的用户行为、交易和文本反馈数据。
探索性数据分析 (EDA)： 初步了解数据概况和潜在特征。
特征工程 (传统 + LLM)： 计算 RFM 指标，并利用 LLM 从用户评论中提取情感、主题或 Embeddings 特征。
智能用户分群： 使用 K-Means 等聚类算法，对融合了行为和“心声”的特征进行用户分群。
用户画像生成 (LLM 辅助)： 利用 LLM 对生成的群组进行深入解读，自动生成生动、可理解的用户画像描述。
制定差异化营销策略： 针对不同用户群组的特点，构思差异化的营销目标和策略方向。
个性化营销文案生成 (LLM 驱动)： 利用 LLM 为关键用户群组自动生成具体的、个性化的营销文案示例（如邮件标题、推送通知）。
效果评估与迭代思路： 讨论如何衡量分群效果和营销活动效果，以及后续的优化方向。

这个案例将是你所学知识的一次大检查！ 它将检验你：

运用 Pandas 进行复杂数据整合与处理的能力。
利用 Scikit-learn 进行聚类建模的能力。
与 LLM 交互、设计 Prompt 以完成特定任务（特征提取、画像生成、文案创作）的能力。
将技术分析结果转化为可落地业务策略的思维能力。
对整个数据智能项目流程的把控能力。

一、启动：定义问题，整合数据

1. 业务问题定义

假设我们是一家综合性电商平台，面临用户增长放缓、营销成本上升的挑战。为了提升营销效率和用户生命周期价值 (LTV)，我们需要：

更精准地识别不同价值层次和需求偏好的用户群体。
针对不同群体制定差异化的运营策略和沟通方式。
提升营销内容的个性化程度和吸引力，提高转化率。

核心目标：通过深度用户分群，实现精准营销，提升 ROI。

2. 数据准备 (模拟)

我们需要整合三方面的数据：

用户信息表 (customers.csv): CustomerID, Age, Gender, City, RegistrationDate
订单信息表 (orders.csv): OrderID, CustomerID, OrderDate, TotalAmount
用户评论表 (reviews.csv): ReviewID, CustomerID, ProductID, ReviewDate, ReviewText, Rating (1-5)

(说明： 实际项目中，你需要从数据库或数据仓库中提取这些数据。为方便演示，我们创建模拟数据。强烈建议你后续使用真实或更丰富的公开数据集进行练习。)

import pandas as pd
import numpy as np
import datetime
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from openai import OpenAI # 假设使用 OpenAI
import matplotlib.pyplot as plt
import seaborn as sns

# 设置可视化风格和中文显示
sns.set_theme(style="ticks", palette="viridis")
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# --- 创建模拟数据 ---
# 客户信息
customer_ids = [f'C{
     
     i:04d}' for i in range(1, 201)]
customers_data = {
   
   
    'CustomerID': customer_ids,
    'Age': np.random.randint(18, 65, 200),
    'Gender': np.random.choice(['Male', 'Female', 'Unknown'], 200, p=[0.45, 0.45, 0.1]),
    'City': np.random.choice(['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen', 'Hangzhou', 'Chengdu'], 200),
    'RegistrationDate': pd.to_datetime(np.random.choice(pd.date_range('2022-01-01', '2023-06-30'), 200))
}
df_customers = pd.DataFrame(customers_data)

# 订单信息 (更多订单)
order_ids = [f'O{
     
     i:05d}' for i in range(1, 1001)]
order_customer_ids = np.random.choice(customer_ids, 1000) # 允许一个客户有多个订单
order_dates = pd.to_datetime(np.random.choice(pd.date_range('2023-01-01', '2023-12-31'), 1000))
order_amounts = np.random.lognormal(mean=np.log(150), sigma=0.8, size=1000).round(2) # 模拟偏态分布的订单金额
orders_data = {
   
   
    'OrderID': order_ids,
    'CustomerID': order_customer_ids,
    'OrderDate': order_dates,
    'TotalAmount': order_amounts
}
df_orders = pd.DataFrame(orders_data)

# 用户评论信息 (部分用户有评论，可能有多条)
review_ids = [f'R{
     
     i:05d}' for i in range(1, 301)]
review_customer_ids = np.random.choice(customer_ids, 300) # 假设 300 条评论来自不同用户
review_dates = pd.to_datetime(np.random.choice(pd.date_range('2023-01-01', '2023-12-31'), 300))
review_ratings = np.random.randint