数分面试题2-牛客

1、面对大方差如何解决

1,AB实验场景下,如果一个指标的方差较大表示它的波动较大,那么实验组和对照组的显著差异可能是因为方差较大即随机波动较大。解决方法有:PSM方法、CUPED(方差缩减)
PSM代表"Propensity Score Matching"(倾向得分匹配),它是一种常用的统计分析方法,用于减少合并数据集时由于非随机分配而引起的处理选择偏差。
PSM倾向值匹配方法(Propensity Score Matching):观测性研究有时无法人为控制干扰因素,因此可能会导致因果推断的偏差。 常规的解决思路是尽量模拟随机试验, 这样实验组与对照组在结果变量上的差异就可归因与实验条件的改变而非干扰因素或协变量施加的影响。
“CUPED"代表"Controlled Uncorrelated Pre-processing and Estimation of Difference”(对照组预处理和差异估计的控制无相关性方法),也称为方差缩减方法。CUPED方法用于降低处理组和对照组之间的方差,并增强估计处理效应的效果。
CUPED方差缩减方法(Controlled-experiment Using Pre-Experiment Data):先分层计算后汇总,举个例子,我们计算对照组和实验组的用户平均使用时长,可以分别按照城市划分,先计算每个城市的用户平均使用时长,然后再按照权重(各城市实验用户)计算总的。(前提是城市这个特征与用户平均使用时长高度相关)

2,机器学习场景下,特征的方差反而越大越好,因为如果一个特征方差为0,那么其实这个特征对于模型来说没有什么意义,所以特征方差大对于模型的训练才是有帮助的

2、KNN、K-Means区别

KNN是分类算法,监督学习,知道了结果去效验结果是否正确。
在KNN算法中,训练集中的每个样本都有一个标签,表示其所属的类别或对应的值。当需要预测新样本的类别或值时,KNN算法会找到训练集中与该新样本最接近的K个邻居,并根据这K个邻居的标签进行决策。
KNN步骤:1,确定k值。2,计算距离 3,根据距离排序 4,决策
1,确定K值:选择一个合适的K值,即决定在预测过程中考虑的邻居数量。
2,计算距离:对于一个新样本,计算它与训练集中每个样本之间的距离。常用的距离度量方法包括欧氏距离、曼哈顿距离、闵可夫斯基距离等。
3,根据距离排序:将训练集中的样本按照与新样本的距离进行排序,选取距离最近的K个邻居。
4,决策:对于分类问题,采用投票法确定新样本的类别,即选择K个邻居中出现最频繁的类别作为新样本的预测类别。对于回归问题,采用平均值法确定新样本的预测值,即将K个邻居的值求平均。

K-Means是聚类算法,它是非监督学习,它需要先自己算去一个结果
K-Means算法的基本思想是通过迭代的方式将数据集分为K个簇(类别),其中K是用户指定的聚类数量。该算法依赖于样本之间的距离度量,通常使用欧氏距离。
k-mean步骤:1,确定k值 2,初始化质心 3,分配样本,4,更新质心 5,重复34,6,输出结果
1,选择聚类数量K:确定希望将数据集分成的簇的数量。
2,初始化质心:从数据集中随机选择K个样本作为质心(每个簇的代表点)。
3,分配样本:对于数据集中的每个样本,计算其与各个质心之间的距离,并将样本分配给与其距离最近的质心所代表的簇。
4,更新质心:对于每个簇,计算该簇中所有样本的平均值或中心点,将其作为新的质心。
5,重复步骤3和步骤4,直到质心不再发生显著的变化或达到预定的迭代次数。
6,输出结果:最终得到K个簇,每个样本都属于其中一个簇。

3、数据分析指标的阈值怎么确定

  1. 人为划定:根据过往经验设定阈值
  2. 统计分类:基于统计分类结果设定阈值
  3. 自动选择:通过数据挖掘方法确定阈值

总结: 人为划定、统计分类、模型自动选择三种方法

对于一些有明确目的或者是凭借过往经验可直接判断的阈值标准,就可以人为划定。这种方法的优势在于简单便捷成本低。
而对于有一定业务知识但是历史经验不足的情况,可以在人为划定的基础上加入统计学原理,用统计分类的思想进行指标阈值确定。这种情况下需要掌握数据的整体情况,了解数据指标的基本分布,根据数据分位数、3-sigma原则、统计指标的拒绝域等进行划分。这种方法既包含了对业务指标有多了解,又用到了统计分析的科学方法,具备科学性和稳定性。
而在数据维度多、指标数量大的情况下,上述两种方法则变得十分困难,此时可以通过机器学习的方法让模型自动调整参数,确定最优阈值。这个过程中最常用的方法有分类、聚类、关联、回归,每种方法下都有多个模型可以进行选择,根据各类模型的评价指标进行参数选择、阈值确定。

4、如何不用自带函数统计一段话每个单词出现的次数

sentence = 'xxx xx x'    
words = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值