本文共 558 字,大约阅读时间需要 1 分钟。
这篇博客中所提到的:
由于将数据集旋转后数据的各维度之间是不相关的
这句话的意思并不是说维度之间可以线性相关(我们知道坐标系一定是线性无关的)。
假设样本集有n个样本,其样本矩阵:
求出的协方差中的,非对角元素代表的是在该样本矩阵中,不同维度之间的影响。而这篇博客是说协方差的非对角元素为0(各维度之间是不相关的)。
那么协方差的非对角元素为0本身代表什么意思?它是一种统计意义上的“不相关”:指的是对于给定的样本集,在该坐标系下,在这两个维度体现除了统计学意义上的无关性。就是说样本集在指定坐标系下的某2个维度上体现出了无关性。
这里要先明确几点:
坐标系的旋转会导致样本的值和协方差发生变化
d2(X,Y)=[(X−Y)UT](UΣXUT)−1[(X−Y)UT]T当坐标系旋转时,U就会发生变化 -> 样本的值和协方差发生变化
当坐标系旋转到某个位置,协方差会变为对角矩阵:
里面的
ΣX 的作用等效于先进行坐标系旋转,在得到了对角化的 ΣF 后,再进行各维度尺度缩放(其对角线上的元素就是各个维度上的缩放比例)。