
数据分析
文章平均质量分 76
数据科技社
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据预处理(去量钢化)的四大方法与python实现
做数据分析,尤其是数据建模,一半的时间都会花费在数据预处理上。但不进行预处理又不可行,因为不处理就不能很好地进行数据压缩和可视化,也不能满足模型对数据的要求。数据预处理重要又费时,如何提高数据预处理的效率呢?数据去量钢化预处理四大方法来了, python帮你轻松实现。01.去量钢化四大方法标准化(StandardScaler)StandardScaler使每个特征的平均值为0,方差为1。优点是确保每一个特征都在同一个数量级上,缺点是不能保证每个特征的最大值和最小值。鲁棒标量化(RobustS转载 2020-08-28 18:02:45 · 1601 阅读 · 0 评论 -
数据科学中费米估算法的应用:如何估算一个城市加油站的数量?
在商业拓展中,经常需要估算市场容量,这是商业拓展必须搞清楚的基本问题之一。因此,在一些面试过程中,我们经常会遇到一些估算问题,如估算天津市加油站的数量、北京市酒店的数量等。估算市场容量的问题,乍一看给出的条件很少,似乎是一个不能解决的问题;但如果懂得用费米估算法,问题将迎刃而解。01 费米估算法恩里科·费米(Enrico Fermi,1901-1954)是美籍意大利物理学家,1938年获得诺...转载 2020-04-22 12:13:12 · 4178 阅读 · 0 评论 -
用户增长的两种基本逻辑,哪个更适合你的产品?
在互联网企业,数据、产品、运营三个部门都以用户增长为核心目标,用户增长是互联网企业的核心指标。一、用户增长定义用户增长既包含用户量的增长,也包含用户价值的增长:公司业绩增长=用户量的增长*单个用户价值的增长。产品用户需求契合度和商业模式基本确定了单个用户价值。只有产品用户需求契合度高,才能真正有用户量的增长;否则,即使靠补贴和广告拉来一批用户,也留不住。所以,从长期来看,单个用户价值的增长...转载 2020-04-06 11:29:11 · 653 阅读 · 0 评论 -
拉新反作弊策略及应用案例
互联网产品拉新时付出的成本都比较高,往往付出的都是真金白银,尤其是现在广为流行的红包拉新策略。利用企业拉新的机会,很多用户会褥羊毛。商家被用户褥羊毛损失最严重也最出名的案例应该是2019年1月20日凌晨拼多多的”无门槛100元优惠券”事件,据说损失至少千万。如何防止加用户褥羊毛呢?反作弊策略非常重要。我们从以下案例出发说明拉新反作弊的常用策略。案例:某APP推出了双边现金奖励的拉新策略“邀请...转载 2020-04-06 11:27:03 · 1704 阅读 · 0 评论 -
常见监测指标波动原因的分析方法与案例
作为数据分析师,经常遇到某个指标异常波动(如日活同比或环比大幅下降)的分析需求,很多数据分析都有为此而苦恼的经历。如何解决指标波动的分析问题呢?掌握常见指标波动的分析方法,再结合行业知识和公司业务逻辑进行分析,有助于找出数据波动的原因,最终促进运营策略发现和业务增长。案例:某出行类APP本周二A、B、C、D四个城市同比上周二大幅下降,触发了最新建立的预警规则中的绝对波动预警(同比变化幅度),...转载 2020-03-21 18:34:31 · 3657 阅读 · 0 评论 -
一文读懂AB测试原理及样本量计算的Python实现
为了对比不同策略的效果,如新策略点击率的提升是否显著,常需要进行A/B测试。但测试是有成本的,样本量小时不能判断出差异是否是由抽样误差引起,样本量太大时如果效果不好则会造成难以挽回的损失。如何科学地选择样本量呢?需要了解A/B测试的统计学原理。如果你不想了解统计学原理或者统计学原理对你来说就是无字天书,请直接跳至文末福利部分,用在线计算器计算样本量就可以。不过建议您了解一下原理部分,其实并没有那...转载 2020-03-08 18:11:51 · 4736 阅读 · 1 评论 -
如何挖掘出促进用户增长的关键点?
用户增长是互联网产品永远绕不开的一个主题,也是互联网公司的关键指标。多数数据分析师的大部分工作也都是为用户增长这一目标服务的。黑客增长是通过大量数据挖掘以低成本的方式快速促进用户增长的策略,被越来越多的互联网公司重视。黑客增长策略中的一个重要方面是挖掘出和用户增长(如提高留存率、提高分享率)相关的指标,并找到这个临界点,以这个指标和临界点为抓手,促进用户增长。今天,分享挖掘用户增长关键点的三个...转载 2020-03-04 16:07:08 · 539 阅读 · 0 评论 -
相关性分析在数据分析实践中的应用(python实现)(一)
在商业实践中,很多时候直接获取某一指标的成本是很高的。这种指标的获取可能不仅需要财力物力,还需要超前获得,即在指标数值产生前进行预测。我们想要的指标较难获得,但与该指标的相关指标可能是比较容易获取到的,并且成本比较低。我们可以用容易获得的指标预测较难获得的指标。通过一个或多个已知指标预测未知指标,就需要用到相关性分析。常见的相关性分析有皮尔逊(Pearson)相关系数、斯皮尔曼(spearma...转载 2020-02-23 16:27:53 · 1346 阅读 · 0 评论 -
一元回归模型在数据挖掘中的实践应用(Python实现)
在做各种运营活动时,非常重要的一个指标是活动落地页的曝光量UV(Unique Visitor,此文中仅考虑曝光和点击的人数,不考虑次数)。而落地页曝光量受两个直接因素的影响,活动链接(或图标)点击量和落地页加载时长。我们都知道页面加载时长会影响页面曝光量,因为如果在用户有限的等待时间内页面加载不出来,用户会直接退出页面,导致页面曝光量损失。页面曝光损失率=(活动链接点击量 – 落地页曝光量)/...转载 2020-02-23 16:21:20 · 271 阅读 · 0 评论 -
如何搭建数据指标监测体系?
无论是数据分析师还是数据产品经理的工作都会涉及数据监测体系的搭建,而且部分小公司是没有数据产品经理的,所以大部分都落在了数据分析师头上。公司不同层级的管理人员、执行层面负责不同工作的同事所观测的指标都不相同。所以,需要根据需求,将监测指标逐步分级,并根据不同人员的查看需要,将监测指标分到不同的页面。搭建指标监测体系的一般逻辑是从上到下,即从大面上的指标开始,逐步向下拆解到最细的层面。从上到下的...转载 2020-01-21 16:45:20 · 1896 阅读 · 0 评论 -
还在为数据分析职业发展路径迷茫? 一文读懂数据分析、数据挖掘、算法、数据开发工程师的异同
很多刚入行数据分析的朋友,对数据分析未来的发展方向有些迷茫,不清楚数据分析将来的晋升路径是什么,工资待遇有多大差别,以及数据分析与数据挖掘、算法、数据开发工程师的工作职责和目标有什么区别。数学君作为一个入行两年多的数据分析师,也曾经有过这样的疑惑,但好在后面结合工作经验和通过其他途径梳理清了这些岗位的区别和未来的发展方向。今天,数学君就结合自己的经验和互联网公司数据相关岗位的现状,具体谈一谈数...转载 2020-01-21 16:42:33 · 1178 阅读 · 0 评论 -
一个案例掌握五大关键数据分析思维
数据分析在互联网公司的重要性不言而喻,随着社会对数据分析人才需求量的增大,越来越多的人在朝数据分析的方向发展。但很多人谈到数据分析时首先想到的是数据分析工具,如Python、SQL等,却忽略了数据分析思维的培养。数据分析思维决定了从哪些方面分析,而数据分析工具主要是服务于数据分析思维。简单地说,数据分析思维决定了分析方向,而数据分析工具只是帮你达到目的地。一个连分析的方向都搞不清楚的人,即使通...转载 2020-01-21 16:39:22 · 622 阅读 · 0 评论 -
一个SQL,程序实现多日留存率计算
留存率是衡量用户质量的最重要指标之一,因此计算用户留存率是用户数据分析中必须掌握的技能之一。留存率指标中,通常需要关注次日留存、3日留存、7日留存和月留存。对新增用户而言,需要关注更细颗粒度的数据,也就是7日内每天的留存率。7日内每天的留存率,最笨的方式是一天一天计算,如:select count(distinct user_id)from tablewhere date = ‘2019...转载 2020-01-21 16:36:23 · 4165 阅读 · 0 评论 -
数据分析必知系列之线性规划问题(ROI &Python 求解线性规划问题)
数据分析始终是为公司的商业目标服务的。商业目标的核心目标之一是利润最大化,而在现实生产中,利润最大化问题必然涉及ROI(return on investment),并且是多种限制条件下资源的最优分配问题,转化为数据建模或者数学问题就是线性规划问题。线性规划问题,很多同学在高中数学中就学过了,不过在有限的纸笔工具条件下,我们只能求解二元变量的线性规划问题。在商业实际中,变量的数目往往在三个或以上,...转载 2020-01-21 16:32:53 · 1682 阅读 · 0 评论 -
抖音日活3.2亿,可能有 3.3亿用户在同一天内使用抖音吗?(泊松分布的Python实现)
今年7月9日,抖音官方宣布抖音APP的日活达到3.2亿。在没有详细公开数据的情况下,假设这是抖音App 6月份的平均日活跃用户数。那么在6月份平均日活跃用户数3.2亿的情况下,有可能某天有3.3亿用户使用抖音吗?每天有多少用户使用抖音,实际上是一个典型的泊松分布问题。某一地点(无论是现实的三维空间,还是虚拟的网络空间)的访客数量服从泊松分布。1. 什么是Poisson分布?泊松分布是一种常见...转载 2020-01-21 16:29:44 · 707 阅读 · 0 评论 -
SQL常见六大字符串格式时间处理11方法
SQL中日期处理非常常见,尤其是字符串格式的时间分区。如果数据是日期格式,那么直接用库中函数处理日期,比较简单。但当日期是字符串时,就需要做一些预处理工作。本文介绍常见字符串日期的处理方法。以impala为例。01 将日期字符串20200119转化为bigint时间戳: unix_timestamp (string date,格式)如:unix_timestamp (‘20200119’,‘...转载 2020-01-21 16:27:00 · 2938 阅读 · 0 评论 -
你做数据分析却不懂RFM模型?开什么玩笑!
在互联网时代做数据分析,首要的工作是了解用户。怎样去了解用户呢?做用户画像!用户画像包含多个方面:用户属性、用户消费特征、用户关联、用户非消费行为……做用户画像的工作量很大,我们做数据分析的最终目的是为了解决业绩瓶颈问题,提升业绩。而用户画像中最核心、与业绩最直接相关的指标是什么呢?是用户消费特征。RFM模型就是根据消费特征对用户进行分层。一、什么是RFM模型?RFM模型是根据最近消费时间(...转载 2019-10-15 12:09:26 · 1560 阅读 · 0 评论 -
常见数据分析(Python)面试题(一)
1. 列表添加元素、取余运算、for循环输出0到100(含100)间的偶数:输出结果如下:注意:range()函数默认从0开始,结束值省略,所以range()函数应该取到101。2. 组合计数:列表输出、不等关系判断1、2、3、4、5五个数字可以组成多少个各数位上数字不同的三位数?分别是多少?输出结果如下:注意:(1)因range()函数的stop值省略,range()函数...转载 2019-10-15 12:05:16 · 2971 阅读 · 0 评论 -
数据分析(SQL)常见面试题(一):开窗函数
一、什么是开窗函数开窗函数/分析函数:over()开窗函数也叫分析函数,有两类:一类是聚合开窗函数,一类是排序开窗函数。开窗函数的调用格式为:函数名(列名) OVER(partition by 列名 order by列名) 。如果你没听说过开窗函数,看到上面开窗函数的调用方法,你可能还会有些疑惑。但只要你了解聚合函数,那么理解开窗函数就非常容易了。我们知道聚合函数对一组值执行计算并返...转载 2019-10-15 12:00:09 · 2322 阅读 · 1 评论 -
转行数据分析两年,走过的坑、读过的书…
在上次分享了 “我放弃了国企工作,转行做了数据分析”(此处添加链接)之后,有朋友分享了学习数据分析中的疑惑:学习SQL,该看哪些书?学习Python,该看哪些书?学习R语言,该看哪些书?辞职自学数据分析,值得吗?没有数据分析经验,面试通过率很低,怎么办?……数学君不得不承认自己在刚转行做数据分析时也遇到过这些问题,所以和朋友们分享一下自己走过的那些坑,希望朋友们能因此少走些坑 。入...转载 2019-09-08 23:47:51 · 767 阅读 · 0 评论 -
公司的收益如何预测?时间序列模型轻松搞定
公司的收益受很多因素的影响,一般的回归模型在预测公司收益方面并不容易奏效,因为回归模型需要的解释变量(自变量)很多,而在现实中,这些自变量也难以预测。但时间序列模型可以在仅知道历史收益一个变量的情况下,实现较高准确度的预测。时间序列模型有多种,如:单指数平滑模型(simple/single exponential model)双指数平滑模型(double exponential model...转载 2019-09-08 23:45:01 · 3282 阅读 · 0 评论 -
转行做数据分析的心路历程
现在很多人不是在学习数据分析的路上,就是在考虑要不要学数据分析的路上,无论是他或她之前所学的专业是理工学科还是文史学科,也无论他或她现在做的工作是不是数据类工作。如此多的人学习数据分析,再次说明数据分析这个职业非常火爆。至于为什么火爆,无需多言。我们关心的是做数据分析需要什么知识和技能,怎样做数据分析,如何才能成为一个优秀的数据分析师。转行做数据分析有两年时间了,虽然还不能算作是优秀的数据分析...转载 2019-09-01 18:22:11 · 1153 阅读 · 2 评论