博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
马氏距笔记
阅读量:2355 次
发布时间:2019-05-10

本文共 558 字,大约阅读时间需要 1 分钟。

勘误

这篇博客中所提到的:

由于将数据集旋转后数据的各维度之间是不相关的

这句话的意思并不是说维度之间可以线性相关(我们知道坐标系一定是线性无关的)。

假设样本集有n个样本,其样本矩阵:

Xn×m

求出的协方差中的,非对角元素代表的是在该样本矩阵中,不同维度之间的影响。而这篇博客是说协方差的非对角元素为0(各维度之间是不相关的)。

那么协方差的非对角元素为0本身代表什么意思?它是一种统计意义上的“不相关”:指的是对于给定的样本集,在该坐标系下,在这两个维度体现除了统计学意义上的无关性。

就是说样本集在指定坐标系下的某2个维度上体现出了无关性。

马氏距为什么能够很好地抵消不同维度的尺度差异?

这里要先明确几点:

  • 两点之间的马氏距不会因为坐标系的旋转而发生变化
  • 坐标系的旋转会导致样本的值和协方差发生变化

    d2(X,Y)=[(XY)UT](UΣXUT)1[(XY)UT]T
    当坐标系旋转时,U就会发生变化 -> 样本的值和协方差发生变化

    当坐标系旋转到某个位置,协方差会变为对角矩阵:

    这里写图片描述

里面的

λ1...λm
反映了其他维度对本维度值的影响(为1就是不影响,否则就是影响)。

ΣX 的作用等效于先进行坐标系旋转,在得到了对角化的 ΣF 后,再进行各维度尺度缩放(其对角线上的元素就是各个维度上的缩放比例)。

你可能感兴趣的文章
Java 产生随机数 详解
查看>>
Linux 后台执行命令 详解
查看>>
SpringBoot @ConfigurationProperties参数绑定 详解
查看>>
Nginx+Lua 开发的 hello world 案例 详解
查看>>
GB28181:基于JAVA的Catalog目录获取[part3]
查看>>
沙与沫
查看>>
BFS解小孩分油问题
查看>>
Bloom filter
查看>>
R语言绘制barplot(盒状图)以及plot(点状图)处理字体大小问题
查看>>
在Hadoop中使用MRUnit进行单元测试
查看>>
Type mismatch in key from map: expected .. Text, received … LongWritable
查看>>
详解Java内存机制(堆与栈)的分配
查看>>
The Small Files Problem
查看>>
Hadoop Archive解决海量小文件存储
查看>>
Hadoop SequenceFile Writer And Reader
查看>>
Custom KeyValueTextInputFormat
查看>>
Hadoop0.20+ custom MultipleOutputFormat
查看>>
Eclipse:Run on Hadoop 没有反应
查看>>
最小堆
查看>>
Hadoop用于和Map Reduce作业交互的命令
查看>>