相关系数计算 总体相关系数计算公式
相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数。
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
需要说明的是,皮尔逊相关系数并不是唯一的相关系数,但是最常见的相关系数,以下解释都是针对皮尔逊相关系数。
首先看相关系数如何导出。我们知道,两个相互独立的随机变量之和的方差,可以进行如下推导:
由此引出了协方差和相关系数的定义:
图一
由图一可以看出,当X,Y相互独立时,由于其协方差为0,所以其相关系数也为0。当两者线性相关时,也就是图二中的各种情况,即当Y=kX+b的时候,将其代入图一中的相关系数进行计算后可以得出其结果为1和-1。
图二
由图一和图二得出结论:当两个随机变量相互独立时,其相关系数为0;当两者线性相关时,其相关系数为1或-1。这是相关系数的三个极端情况,那么如何理解相关系数处于-1和1之间代表的意义呢?
图三
图三中Y=2X,属于完全正线性相关,相关系数自然等于1。然后我们改变其中几个数字:
图四
相关系数变成0.91。继续改变数字:
图五
相关系数变成负的了。由此我们可以看出相关系数的含义了。其数值范围由最大的正线性相关1可以慢慢变成负线性相关的-1。为什么会出现这种情况呢?我们看图一中相关系数的定义,其分子为
E{(X-E(X))(Y-E(Y)},再看图三,其中X和Y的平均值分别为6和12,(X-E(X))和(Y-E(Y))要么同时为正,要么同时为负,所以图三的相关系数最终是由6个正数相加而成,数值较大;而图四中,当X=4,Y=14的时候,出现了(X-E(X))和(Y-E(Y))正负相反的情况,所以相关系数的最终结果出现了正负抵消的情况,数值出现了下降;图五则是相关系数中{(X-E(X))(Y-E(Y)}两者6个乘积的结果里面负数的总和大于正数,所以相关系数最终结果值为负。
我们还要注意到,相关系数定义中的分母总是正的。
总的来看,相关系数是用来度量一对数组中相对应的两个点围绕其各自的平均值增加和减少方向一致程度大小的量。
相关系数的概念比较重要,由相关系数引申出了信号分析中的相关函数、自相关函数和互相关函数等,也引申出了随机过程中的自相关遍历等概念,所以准确把握相关系数的含义,对于进一步深入学习很有帮助。