目录
前言
本文来介绍相关系数的含义以及Hive中如何使用计算相关系数的函数。
1. 什么是相关系数
1.1 定义
相关系数(Correlation coefficient)是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数,也叫简单相关系数或线性相关系数。
用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差:
协方差和标准差的计算方法可以参见进阶篇(八) </