协方差是衡量两个变量线性相关程度的统计量,核心公式简洁明了。
Cov(X, Y) = E[(X - μₓ)(Y - μᵧ)]
-
X、Y 为两个随机变量。
-
μₓ 是 X 的总体均值,μᵧ 是 Y 的总体均值。
-
E [・] 表示数学期望(即所有可能取值的平均)。
-
总体协方差(已知全部数据):
Cov (X, Y) = [Σ(Xᵢ - μₓ)(Yᵢ - μᵧ)] / N
-
Xᵢ、Yᵢ 是变量的第 i 个观测值,N 是总体数据总数。
-
样本协方差(仅抽样数据,无偏估计):
Cov (X, Y) = [Σ(Xᵢ - X̄)(Yᵢ - Ȳ)] / (n - 1)
-
X̄ 是样本均值,Ȳ 是样本均值,n 是样本数据个数。
-
分母用 n-1 是为了修正样本与总体的偏差,保证估计无偏。
-
结果为正,说明 X、Y 正相关;结果为负,说明负相关;结果接近 0,说明线性相关性弱。
-
协方差的数值大小受变量单位影响,无法直接衡量相关强弱(需结合标准差计算相关系数)。