请问什么叫列与列之间的相关系数

我在看代码时,程序在使用 pandas 读取 csv 文件后,
使用 df.corr () 函数,我查了下说是返回列与列之间的相关系数,
请问这该如何理解?我返回的列有 10 个,它这里说的列与列之间
是指哪个列?相关系数是否有计算公式?

讨论数量: 2

Pandas 中的 DataFrame.corr () 函数计算每一列与其他列之间的相关系数,默认使用皮尔逊相关系数。相关系数是用来衡量两个变量之间线性相关程度的统计量,取值范围在 - 1 到 1 之间,绝对值越大表示相关性越强,符号表示正相关或负相关。

具体来说,如果一个数据集包含 10 个列,那么 DataFrame.corr () 函数会返回一个 10x10 的矩阵,对角线上的元素都是 1,因为每个变量与自己完全相关。非对角线上的元素表示不同变量之间的相关系数。

例如,元素 (i,j) 表示第 i 列和第 j 列之间的相关系数。由于相关系数是对称的,所以元素 (j,i) 也表示第 i 列和第 j 列之间的相关系数。

皮尔森相关系数的计算公式如下:

r = cov(X,Y) / (std(X) * std(Y))

其中,cov (X, Y) 表示 X 和 Y 的协方差,std (X) 和 std (Y) 分别表示 X 和 Y 的标准差。

2年前 评论