请问什么叫列与列之间的相关系数

我在看代码时,程序在使用pandas读取csv文件后,
使用df.corr()函数,我查了下说是返回列与列之间的相关系数,
请问这该如何理解?我返回的列有10个,它这里说的列与列之间
是指哪个列?相关系数是否有计算公式?

讨论数量: 2

Pandas中的DataFrame.corr()函数计算每一列与其他列之间的相关系数,默认使用皮尔逊相关系数。相关系数是用来衡量两个变量之间线性相关程度的统计量,取值范围在-1到1之间,绝对值越大表示相关性越强,符号表示正相关或负相关。

具体来说,如果一个数据集包含10个列,那么DataFrame.corr()函数会返回一个10x10的矩阵,对角线上的元素都是1,因为每个变量与自己完全相关。非对角线上的元素表示不同变量之间的相关系数。

例如,元素(i,j)表示第i列和第j列之间的相关系数。由于相关系数是对称的,所以元素(j,i)也表示第i列和第j列之间的相关系数。

皮尔森相关系数的计算公式如下:

r = cov(X,Y) / (std(X) * std(Y))

其中,cov(X, Y) 表示 X 和 Y 的协方差,std(X) 和 std(Y) 分别表示 X 和 Y 的标准差。

1年前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!