请问什么叫列与列之间的相关系数
我在看代码时,程序在使用pandas读取csv文件后,
使用df.corr()函数,我查了下说是返回列与列之间的相关系数,
请问这该如何理解?我返回的列有10个,它这里说的列与列之间
是指哪个列?相关系数是否有计算公式?
可以看下这个解释 pythonjishu.com/pandas-dataframe-c...
Pandas中的DataFrame.corr()函数计算每一列与其他列之间的相关系数,默认使用皮尔逊相关系数。相关系数是用来衡量两个变量之间线性相关程度的统计量,取值范围在-1到1之间,绝对值越大表示相关性越强,符号表示正相关或负相关。
具体来说,如果一个数据集包含10个列,那么DataFrame.corr()函数会返回一个10x10的矩阵,对角线上的元素都是1,因为每个变量与自己完全相关。非对角线上的元素表示不同变量之间的相关系数。
例如,元素(i,j)表示第i列和第j列之间的相关系数。由于相关系数是对称的,所以元素(j,i)也表示第i列和第j列之间的相关系数。
皮尔森相关系数的计算公式如下:
r = cov(X,Y) / (std(X) * std(Y))
其中,cov(X, Y) 表示 X 和 Y 的协方差,std(X) 和 std(Y) 分别表示 X 和 Y 的标准差。