xia ge tou lia-CSDN博客

原创机器学习——需求预测——准确性（误差）统计——MAE、MSE、MAPE、WMAPE

误差指标公式（为预测值，为真实值）特点缺点 MAE 1、易受真实值量纲上的差别带来的影响 MSE 1、加倍惩罚极端误差 1、易受真实值量纲上的差别带来的影响 2、极端值的影响 MAPE WMAPE 一、平均绝对误差(Mean Absolute Error，MAE)其中，为预测值，为真实值。由于...

2021-11-21 00:36:14 32648

原创机器学习——特征工程——交互特征（多项式特征）

两个特征的乘积可以组成一对简单的交互特征，这种相乘关系可以用逻辑操作符AND来类比，它可以表示出由一对条件形成的结果：“该购买行为来自于邮政编码为98121的地区”AND“用户年龄在18和35岁之间”。这种特征在基于决策树的模型中极其常见，在广义线性模型中也经常使用。简单线性模型使用独立输入特征, , …, 的线性组合来预测结果变量：。很容易对线性模型进行扩展，使之包含输入特征的两两组合，如下所示：。这样，就可以捕获特征之间的交互作用，因此这些特征对就称为交互特征。如果和是二值特征，那么它们的积

2020-12-29 14:22:30 10035 2

原创统计推断——假设检验——线性回归——R的平方可以为负数

在《统计推断——假设检验——简单线性回归分析》，我们学到了一个回归模型评价指标：决定系数。回顾一下决定系数的公式：，其中代表离差总平方和，代表残差平方和，代表回归平方和，各指标计算如下所示：例如下图中，P表示某一个观察点。则根据：，根据上图进行分解：。我们以下面数据为例，以生成点：生成的数据点及如下图所示.，在图中，蓝线上的数据是我们生成的数据，水平红线是该数据的平均值。这样根据公式我们就可以求出。此数据的线性回归方程为，将代入可以求出相应的，然后根据公式，我们可..

2020-12-15 16:26:39 14985

原创机器学习——特征工程——对数转换、Box-Cox转换

一、对数转换对数函数可以对大数值的范围进行压缩，对小数值的范围进行扩展。x越大，log(x)增长得越慢。如下图：我们以如下数据为例。biz_file = open('精通特征工程/精通特征工程/data/yelp_academic_dataset_business.json')biz_df = pd.DataFrame([json.loads(x) for x in biz_file.readlines()])biz_file.close()biz_df.info()输出：.

2020-12-14 18:46:17 11964

原创 EXCEL——常用图表类型（rept函数、人形图、动态图表）

一、条件格式步骤：开始-条件格式-色阶（或数据条）二、迷你图步骤：选择空白单元格-插入-迷你图三、三维地图根据以下数据绘制三维地图：省份人口云南省 9029147 湖北省 8243692 天津市 7886861 内蒙古自治区 7605696 四川省 5909644 广东省 4411450 安徽省 4131016 福建省 3091139 江西省 2174959 北京市 ..

2020-12-03 10:05:32 2195

原创 EXCEL——图表数据标签——展示两组比较的绝对值和变化率

有以下业务场景数据，为不同模型下某个线上活动的千人响应率。企业对照组测试组 A 1.13 1.73 B 0.25 0.23 C 0.56 2.23 D 0.30 0.86 E 0.42 1.17 现在需要做一个比较不同模型的千人响应率的对比，并展示测试组相对于对照组的增长率。企业对照组测试组环比 A 1.13 1.73 53.10% B 0.25

2020-12-01 13:22:25 8232

原创 EXCEL——自定义单元格格式

自定义格式代码常规情况下分为四段，每一段的意思是：正数格式;负数格式;零值格式;文本格式注：如果格式串不全，则按以下方式应用自定义格式：1.如果只使用一部分，格式代码指定的结构将应用于所有类型的值。2.如果使用两部分，第一部分将应用于正值和零，第二部分应用于负值。3.如果使用三部分，第一部分将应用于正值，第二部分应用于负值，第三部分应用于零值。4.如果四部分都使用，第一部分将应用于正值，第二部分将应用于负值，第三部分应用于零值，第四部分应用于文本自定义格式中常用的字符：类型...

2020-12-01 10:54:24 4844

原创 python基础——apply(),applymap(),map()方法的区别

import pandas as pdimport numpy as npfrom pandas import DataFramefrom pandas import Seriesdf= DataFrame({ "a":[-1,2,3], "b":[3,-5,7], })输出：df.apply(lambda x:x+1)输出：df.applymap(lambda x:x+1).

2020-11-11 16:23:39 936

原创 python基础——报错：‘pip‘ 不是内部或外部命令，也不是可运行的程序或批处理文件

新电脑我们安装anaconda之后，根据需求，我们可能需要导入相应的依赖包，最常用的方法，我们使用cmd调出命令窗口，然后pip install +包名。但是，有时候我们会遇到以下情况：这是因为找不到pip命令的安装路径，查阅文件，我们发现，pip命令文件安装在如下路径：这个时候，我们可以将路径定位到pip命令文件路径之下，然后才能运行pip命令文件，如下：另外一种方法，我们可以将pip命令文件路径添加到坏境变量当中，pip命令文件路径为：C:\ProgramData\Anaco

2020-09-08 17:36:12 1997

原创 Hive SQL——group by函数的注意点

Hive SQL的group by对比MySQL，有一个让我特别不能接受的原则：select后面所有的列中，没有使用聚合函数的列，必须出现在group by子句中。例如在hue中执行以下语句：select a.chnl,b.goods_id,b.goods_name,b.goods_spec,b.manufacturer,b.atc1_new,b.atc2_new,b.atc3_new,b.atc4_new,avg(a.salep),avg(a.cost_price),sum(a.paid_in

2020-09-08 14:04:35 2934

原创机器学习——数据集划分——train_test_split和np.split方法

一、train_test_splitsklearn中有方法能将数据集划分为训练集和测试集，实现过程如下：from sklearn.model_selection import train_test_split #数据分区x=np.arange(72).reshape(24,3) #24个样本点，3个维度y=np.arange(24)X_train,X_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=0

2020-08-25 11:45:37 8926 3

原创 python基础——matplotlib——scatter和plot方法中的maker参数（点的样式）

一、scatterscatter方法主要用来做散点图展示，而plot方法主要用来做折线图展示，也可以用于散点图的展示。两个方法的参数基本是通用的。以scatter方法为例，常用参数包括：plt.scatter( ['x', 'y', 's=None', 'c=None', 'marker=None', 'cmap=None', 'norm=None', 'vmin=None', 'vmax=None', 'alpha=None', 'linewidths=None', 'verts=&.

2020-08-24 20:51:44 24857

原创 python基础——字符串格式化（%操作符与str.format）

在使用print打印方法中，经常会用到字符串格式化操作。常用的格式化符号如下表所示。在使用print输出时，同时输出多个字符串的方法如下。输入：print('the score is %d ad result is %f' % (1298,1.314))输出：the score is 1298 ad result is 1.314000对于浮点型数据，如果要保留特定位数的小数，方法如下。输入：print('the score is %d ad result is %

2020-08-23 20:35:54 2589

原创多元统计分析——聚类分析——鸢尾花数据集在K-均值、层次、DBSCAN上的比较

鸢尾花数据集是非常经典的数据集，常被用来数据挖掘初学者进行数据探索，本文基于鸢尾花数据集分别进行K-均值聚类、层次聚类、DBSCAN（密度聚类），比较这三类算法的区别。一、K-均值聚类关于K-均值聚类算法的详细介绍可见《多元统计分析——聚类分析——K-均值聚类（K-中值、K-众数）》。二、层次聚类关于层次聚类算法的详细介绍可见《多元统计分析——聚类分析——层次聚类》。三、DBSCAN（密度聚类）关于DBSCAN（密度聚类）聚类算法的详细介绍可见《多元统计分析——聚类分析——DBSCA

2020-08-23 15:57:41 6530

原创多元统计分析——聚类分析——DBSCAN（基于密度的聚类）

聚类方法适用场景代表算法优点缺陷延伸层次聚类小样本数据 - 可以形成类相似度层次图谱，便于直观的确定类之间的划分。该方法可以得到较理想的分类难以处理大量样本基于划分的聚类大样本数据 K-means算法是解决聚类问题的一种经典算法，简单、快速，复杂度为O(N) 对处理大数据集，该算法保持可伸缩性和高效率当簇近似为高斯分布时，它的效果较好 .

2020-08-23 00:13:54 7332

原创 python基础——numpy——np.c_和np.r_函数（矩阵拼接）

np.r_是按列连接两个矩阵，就是把两矩阵上下相加，要求列数相等。np.c_是按行连接两个矩阵，就是把两矩阵左右相加，要求行数相等。如下：import numpy as npfrom IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"a = np.array([[1, 2, 3],[7,8,9]])b = np.array([[4,5,

2020-08-22 21:24:11 587

原创 python基础——pandas——stack和unstack函数（附加reset_index,set_index函数）

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即“不要堆叠”，我对两个函数是这样理解和区分的。　　常见的数据的层次化结构有两种，一种是“花括号”（下图左），一种是表格（下图右），即下面这样的这两种形式：花括号结构只有“列方向”上的索引（类似于层次化的Series），结构更加偏向于堆叠（Series-stack，方便记忆）。表格在行列方向上均有索引（类似于DataFrame）。stack函数会将数据从”表格结构“变成”花括号

2020-08-21 08:57:49 2746

原创多元统计分析——聚类分析——K-均值聚类应用场景

在《多元统计分析——聚类分析——K-均值聚类（K-中值、K-众数）》当中，我们理解了K-均值聚类的原理，也简单的介绍了K-均值聚类的两个应用场景：发现异常情况：如果不对数据进行任何形式的转换，只是经过中心标准化或级差标准化就进行快速聚类，会根据数据分布特征得到聚类结果。这种聚类会将极端数据单独聚为几类。这种方法适用于统计分析之前的异常值剔除，对异常行为的挖掘，比如监控银行账户是否有洗钱行为、监控POS机是有从事套现、监控某个终端是否是电话卡养卡客户等等。将个案数据做划分：出于客户细分目的的聚类分析一

2020-08-16 21:40:12 6642

原创面试总结——贝叶斯公式（全概率公式）

这段时间面试，遇到一个贝叶斯相关的问题，当时答的不是很理想，所以现在写出来和大家一起分享下，题目大致如下：例：已知某肺炎的患病率为0.01%。现在需要做检测，如果被测者患病则被检测为阳性的概率为99%。如果被测者没病，有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率是多少？...

2020-08-13 17:56:15 4136 2

原创数据挖掘案例——基于RFM模型的药店会员价值分类

一、背景“互联网+”及“大数据”的助力下，大部分药店实行会员制，从传统的品类驱动转为客户为中心的销售模式。经我们数据分析发现，目前药店会员的年销售占比差不多在60%左右，对会员的精细化管理，是重中之重。如何进行会员的精细化管理？首先要建立合理的会员价值评估模型，对客户进行分类。传统的用户价值评估模型主要是建立在RFM模型上，通过三个指标：最近消费时间间隔（Recency）、消费频率（Frequency）、消费金额（Monetary），依照各属性“均值”进行分区。但是该方式用明显的缺点：细

2020-07-26 15:37:04 4194 19

原创数据挖掘案例——药店流失会员预测：什么样的会员容易流失？

一、背景随着药店市场刮起了兼并重组风潮，大量资金涌入医药市场，药店行业竞争进入白热化。同时，“互联网+”及“大数据”为药店引来了新的机遇和挑战，大部分药店都在从传统零售行业转入“服务型”零售，实行“会员制”，进行会员差异化的管理和服务是其中最关键的一环。本文主要利用药店会员销售数据，筛选出其中“已流失会员”进行挖掘分析，探索“已流失会员”的会员属性及购买行为——具有哪些特征的会员易流失？我挑选了一家在二线城市的连锁药店进行分析，这家连锁2018年年销售额差不多在6700万，其中，会员的销售额占比

2020-07-23 15:09:34 2780 2

原创多元统计分析——泰勒展开式

一、理解泰勒公式的由来及意义——一元函数的展开式问题：一个简单的三角函数，现在要求当时的函数值。如果不借助计算机，要怎么求这个值呢?泰勒的思路是：用多项式函数去近似拟合三角函数。在回归分析中，我们以多项式函数拟合数据集，多项式的“项”越多，对数据集的拟合程度越好，如下图。于是这个问题就转换为求解一个多项式函数（“项”的个数越多拟合越好，可以无穷大），让这个多项式函数无限地和三角函数或者其他我们需要的函数等价。推导过程如下：我们定义，我们塑造一个多项式函数：，其中为误...

2020-07-09 15:18:27 4070 1

原创多元统计分析——聚类分析——K-均值聚类（K-中值、K-众数）

聚类方法适用场景代表算法优点缺陷延伸层次聚类小样本数据 - 可以形成类相似度层次图谱，便于直观的确定类之间的划分。该方法可以得到较理想的分类难以处理大量样本基于划分的聚类大样本数据 K-means算法是解决聚类问题的一种经典算法，简单、快速，复杂度为O(N) 对处理大数据集，该算法保持可伸缩性和高效率当簇近似为高斯分布时，它的效果较好 .

2020-07-01 19:03:20 22676 3

原创多元统计分析——聚类分析——层次聚类

聚类方法适用场景代表算法优点缺陷延伸层次聚类小样本数据 - 可以形成类相似度层次图谱，便于直观的确定类之间的划分。该方法可以得到较理想的分类难以处理大量样本基于划分的聚类大样本数据 K-means算法是解决聚类问题的一种经典算法，简单、快速，复杂度为O(N) 对处理大数据集，该算法保持可伸缩性和高效率当簇近似为高斯分布时，它的效果较好 .

2020-06-30 12:31:52 37421 9

原创多元统计分析——数据降维——因子分析（FA）

一、因子分析（Factor Analysis ，FA）1、因子分析与主成分分析的比较区别：因子分析需要构造因子模型，着重要求新变量具有实际的意义，能解释原始变量间的内在结构。主成分分析仅仅是变量变换，是原始变量的线性组合表示新的综合变量，强调新变量贡献了多大比例的方差，不关心新变量是否有明确的实际意义。联系：两者都是降维和信息浓缩的方法。生成的新变量均代表了原始变量的大部...

2020-06-22 22:53:09 30772 1

原创 python——合并同一个文件夹下所有excel文件

有以下，文件夹中的文件，共29个。各个excel有多个sheet文件，不同excel文件当中同一个sheet文件的数据结构是相同的，如下：现在需要将多个excel中的相同命名的sheet合并到同一个sheet当中，组合成一个excel文件。具体代码如下：#使用os模块walk函数，搜索出某目录下的全部excel文件def getFileName(filepath): file_list = [] for root,dirs,files in os.walk(fil..

2020-06-22 10:50:27 6052 4

原创多元统计分析——分类分析——贝叶斯分类

一、两分类问题1、贝叶斯分类1.1、分类规则和代表两个总体，各自的先验概率为和（），和分别是总体和中的概率密度函数。和代表按分类规则划分的两组区域。例如，如果一个新观测对象分到，那么我们声明该样本来自总体，。和是整个空间的分割。是“我们将样本分为然而实际上它来自 ”的条件概率：，类似的，，具体分布如下图所示。进而我们可以推导总错分率 (TPM)：(观测对象被错分到)=(观测对象被错分到)=记是错误地将来自总体的观测对象错分到的代价/成本，类似可定义是错误地..

2020-06-04 18:57:01 6869 1

原创多元统计分析——分类分析——基于Fisher线性判别分析（LDA）的分类

一、两分类问题1、LDA分类2、贝叶斯分类三、多分类问题

2020-06-03 16:04:14 8432 1

原创多元统计分析——数据降维——Fisher线性判别分析（LDA）

一、LDA的思想LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。什么意思呢？我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。二、LDA vs PCALDA用于降维，和PCA有很多相同，也有很多不同的地方，因此值得好好的比较一下两者的降维异同点。　　　..

2020-05-20 16:14:53 15976 2

原创多元统计分析——欧式距离和马氏距离

在一元的情形中，定义两个点和之间的距离：两者作差的绝对值，我们称为欧式距离。经过标准化的作差绝对值，我们称为统计距离，或者标准化过后的距离。其中，代表样本的标准差。在多元的情形中，假设我们有两个维向量和如上面的定义，和相当于维空间中的两个点。我们也有两种方法定义两个点之间的距离。一、欧式距离（Euclidean distance）/范数欧式距离的计算公式如下：直观的理解即为：每个分量之间的差异的平方和，再开根号。缺陷：1、没有考虑到不同变量（维度）变化的尺度不同。例

2020-05-19 18:50:05 13790 1

原创线性代数——柯西不等式

一、柯西不等式1、基本介绍设，，其中，则，取等时，，即。2、证明取向量，。因为

2020-05-17 19:21:08 9761

原创统计推断——正态性检验（图形方法、偏度和峰度、统计（拟合优度）检验）

正态分布是很多计量数据比较分析的假设前提，因此在做比较分析之前要首先验证样本数据所代表的总体是否服从正态分布(这样说太费劲，我们以后还是简单地说成“数据是否正态”)。当然对于比率数据的比较也需要满足分布前提，通常是二项分布和泊松分布，对于二项分布的比率比较，一般不需要做分布的验证。而对泊松分析的比率比较则需要事先验证其分布，验证方法就是卡方检验，这已在我前面发表的《抽样分布篇之五：卡尔•皮尔逊和卡...

2020-05-14 18:56:34 35311 1

原创线性代数——线性变换——旋转矩阵（泰勒公式、虚数、欧拉公式）

设点离坐标原点距离，与轴夹角，将点绕原点逆时针旋转，旋转之后点的坐标为。显然与原点距离不变，仍然为。显然如下关系成立：整理得到：把上面这两个方程写成矩阵形式：所以，只要用上面这个矩阵作用在一个矢量上，就会得到旋转之后的矢量。因此，这个矩阵就代表了把矢量逆时针旋转的旋转操作。【扩充】证明，证明：分成2个部分：1）、泰勒公式证明（当时，）泰勒公式：虚数部分：...根据，我们可以将做下变换，结果如下：；.

2020-05-08 19:10:43 15181 1

原创线性代数——韦达定理、矩阵行列式、矩阵的迹、矩阵特征值及关系

一、韦达定理回顾对于一元二次方程（且），设两个根为，。则：且易得到：，以上定理交代了两根之和（积）与方程系数的关系。依次类推：对于一元三次方程，设三个根为，，。易得到：，故对于一元次的方程，我们可以表示为，其中代表第次项的系数，代表常数项。则，二、矩阵的特征值及特征向量回顾以下知识点来自吴传生主编的《线性代数》【知识点1】：设是阶方阵，如果标量和...

2020-05-05 22:55:29 26682 3

原创机器学习——特征工程——数据离散化（时间离散，多值离散化，连续数据离散化，分位数，聚类法，频率区间，二值化）

离散化：就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的，处理之后的数据值域分布将从连续属性变为离散属性。离散化方式会影响后续数据建模和应用效果：使用决策树往往倾向于少量的离散化区间，过多的离散化将使得规则过多受到碎片区间的影响。关联规则需要对所有特征一起离散化，关联规则关注的是所有特征的关联关系，如果对每个列单独离散化将失去整体规则性。...

2020-04-29 13:41:48 9741 1

原创机器学习——特征工程——数据的标准化（Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer）

数据标准化是一个常用的数据预处理操作，目的是处理不同规模和量纲的数据，使其缩放到相同的数据区间和范围，以减少规模、特征、分布差异等对模型的影响。标准化方法公式优点缺点转换区间适用场景 Z-Score（标准化）适用大多数类型的数据，标准化之后的数据是以0为均值，方差为1的正态分布是一种中心化方法，会改变原有数据得分布结构 ...

2020-04-28 14:38:56 18545 3

原创 python——numpy——hstack和vstack（数组堆叠、平铺）

np.hstack():在水平方向上平铺，行数和原数据一致。np.vstack():在竖直方向上堆叠，列数和原数据一致。注意：案例1：#一维的堆叠平铺a = np.array([1,2,3])b = np.array([4,5,6])c = np.array([7,8,9])np.hstack((a,b,c))np.vstack((a,b,c))#二维的堆叠...

2020-04-27 21:20:12 1413

原创 python——numpy——corrcoef函数（皮尔逊相关系数）

案例1：import numpy as npdata=np.loadtxt('data5.txt',delimiter='\t')x=data[:,:-1]pd.DataFrame(x).head()coorelation_matrix=np.corrcoef(x,rowvar=0) #相关性分析,rowvar=0表示对列进行分析pd.DataFrame(coorelation...

2020-04-27 21:06:00 7410 2

原创机器学习——数据的共线性问题（岭回归、LASSO回归、逐步回归、主成分回归）

一、如何检验共线性容忍度（Trlerance）：容忍度是每个自变量作为因变量对其他自变量进行回归建模时得到的残差比例，大小用1减得到的决定系数来表示。容忍度的值介于0和1之间，如果值越小，说明这个自变量与其他自变量间越可能存在共线性问题。方差膨胀因子（Variance Inflation Factor，VIF）：VIF是容忍度的倒数，值越大则共线性问题越明显，通常以10作为判断边界。当VI...

2020-04-27 10:19:52 15469

原创 python基础——抽样——概率抽样（简单随机、等距、分层、整群）

1、简单随机抽样#简单随机抽样，整体10000个样本import randomimport numpy as npimport pandas as pddata=np.loadtxt('data3.txt')len(data)data_sample=random.sample(data.tolist(),2000) #随机抽取2000个样本,sample函数，array必须转...

2020-04-25 14:32:50 14885 5

案例数据集《机器学习-特征工程-数据离散化-会员数据2》

案例数据集《机器学习-特征工程-数据离散化-会员数据》

案例数据集《多元统计分析-数据降维-Fisher线性判别分析（LDA）-原油样本》

案例数据集《多元统计分析-分类分析-贝叶斯分类-电视机品牌》

案例数据集《多元统计分析-分类分析-基于Fisher线性判别分析（LDA）的分类-气候数据》

案例数据集《多元统计分析-聚类分析-K-均值聚类（K-中值、K-众数）-陶器化学成分》

案例数据集《多元统计分析-聚类分析-K-均值聚类应用场景-电信用户》

案例数据集《多元统计分析-聚类分析-层次聚类》

案例数据集《多元统计分析-数据降维-因子分析（FA）》

案例数据集《特征工程-数据转换-对数转换》

案例数据集《特征工程-数据转换-对数转换》

案例数据集《特征工程-数据转换-对数转换》

空空如也