数据分析之利用RFM模型对餐饮客户进行分析

最新推荐文章于 2024-12-10 13:56:58 发布

lbship

最新推荐文章于 2024-12-10 13:56:58 发布

阅读量4.3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Python 数据分析机器学习

本文链接：https://blog.csdn.net/lbship/article/details/88602922

Python 同时被 3 个专栏收录

18 篇文章

订阅专栏

数据分析

14 篇文章

订阅专栏

机器学习

9 篇文章

订阅专栏

大数据时代，很多公司虽建立数据仓库解决了数据孤岛问题，但不知如何使用数据。博主利用Python、SQL Server和Tableau，采用经典RFM模型采集某连锁餐饮行业客户数据，经标准化变换后，用K-Means聚类分析将客户分为高、一般和普通价值三类，还对各类客户进行了分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、背景和目标

随着大数据时代的到来，很多公司都建立了数据仓库，对分散在各处的数据进行收集，这只是解决了数据应用中的数据孤岛问题，但是不知道如何对数据进行使用。博主打算利用经典的RFM模型来挖掘数据，对某连锁餐饮行业客户进行分类，分成高价值客户、一般价值客户和普通价值客户，方便针对不同客户制定不同的营销策略

利用的工具:

1.Python3.5

2.SQL Server2014

3.Tableau

二、数据采集和处理

1.从数据库采集所需数据

采集模型中所需要的数据：

消费日期:R=观测结束日期-最后消费日期，单位为天

消费频率:观测窗口设置为最近三个月，单位为次

消费金额:客户的消费总金额

因为我直接从数据库获取的数据是很干净的数据，所以不会存在缺失、重复值，也不会有很大的数据差异，不需要进行清洗和规约。直接使用Python的Pandas从数据库获取数据,因为我电脑配置不高，所以就先选了一万条数据。：


import pymssql
import pandas as pd
import time

#连接数据库
def get_db_connection():
    host = 'xxx'
    port = 1433
    user = 'sa'
    password = 'xxx'
    database = 'xxx'
    conn = pymssql.connect(host=host,user=user,password=password,database=database,charset="utf8")
    print('数据库连接成功')
    return conn
#查询SQL结果并生成DataFrame
def get_df():
    sql= '''select top 10000  MEMBER_CODE,datediff(day,max(dob),'2019-03-15')as R,count(1) as F,sum(sales) as M 
     from xxxx  	
     where dob between '2019-01-01' and '2019-03-15'
	 and MEMBER_CODE is not null
	 group by MEMBER_CODE'''
    conn=get_db_connection()
    #直接使用pandas的read_sql即可转化成DataFrame
    df=pd.read_sql(sql,conn)
    print(df.head())
    # columns=[column=cur.description[i][0] for i in range(len(column=cur.description))] #利用光标获得列名

if __name__ == '__main__':
    get_df()

获取到的数据是这样的：

2.为了避免数据量级对结果产生影响，对采集的数据进行变换。这里采用的数据变换方法是标准化

def get_std_data():
    df=get_df().iloc[:,1:]#会员号是str类型，去掉会员号才可以标准化
    std_data=(df-df.mean(axis=0))/df.std(axis=0)
    print(std_data.head())

变换万之后的数据是这样的：

三、建模分析

采用K-Means对客户进行聚类分析，分成三类：高价值客户、一般价值客户和普通价值客户。

def get_result():
    data=get_std_data()
    model=KMeans(n_clusters=3,n_jobs=4)
    model.fit(data)
    print(model.cluster_centers_)#查看聚类中心
    print(model.labels_)#查看个样本对应标签

结果：

四、报告和总结

客户群1在F和M的属性最大，在R的属性最小，说明该客户群经常购买公司的产品，并且很频繁，是优质客户。这一类客户贡献了公司很大的销售额，需要重点保持，优先把资源用在这一部分客户。

客户群2在M和F的属性稍微大点，在R属性最小，说明该客户群也是经常购买产品的，只是频率没那么高，属于一般价值客户。这一类客户消费近期有消费，需要提高他们的购买频率，就有可能成为优质的客户。

客户群3在R属性最大，在M属性最小，说明这个客户很久才购买一次，而且每次买东西也不贵，属于普通价值客户。

简单分析之后，把标签放回原来的数据源，保存成Excel，可以作为训练数据，接下来可以利用这些带标签的数据进行分类。

完整代码：


import pymssql
import pandas as pd
from sklearn.cluster import KMeans

#连接数据库
def get_db_connection():
    host = 'xxx'
    port = 1433
    user = 'sa'
    password = 'xxxx'
    database = 'xxxx'
    conn = pymssql.connect(host=host,user=user,password=password,database=database,charset="utf8")
    print('数据库连接成功')
    return conn
#查询SQL结果并生成DataFrame
def get_df(conn):
    sql= '''select top 10000  MEMBER_CODE,datediff(day,max(dob),'2019-03-15')as R,count(1) as F,sum(sales) as M 
     from xxxx  	
     where dob between '2019-01-01' and '2019-03-15'
	 and MEMBER_CODE is not null
	 group by MEMBER_CODE'''
    #直接使用pandas的read_sql即可转化成DataFrame
    df=pd.read_sql(sql,conn)
    return df
    # columns=[column=cur.description[i][0] for i in range(len(column=cur.description))] #利用光标获得列名
def get_std_data(df):
    df=df.iloc[:,1:]#去掉会员号才可以标准化
    std_data=(df-df.mean(axis=0))/df.std(axis=0)
    return std_data

def get_result(data,df):
    model=KMeans(n_clusters=3,n_jobs=4)
    model.fit(data)
    print(model.cluster_centers_)#查看聚类中心
    #把便签放回数据源，这样就可以把会员进行分类了
    df1=pd.DataFrame(list(model.labels_),columns=['Labor'])
    DF=pd.merge(df,df1,how='inner',left_index=True,right_index=True)
    DF.to_excel('data_with_labor.xlsx')
    print(DF.head())


if __name__ == '__main__':
    conn=get_db_connection()
    df=get_df(conn)
    data=get_std_data(df)
    result=get_result(data,df)