多元统计分析
第二章
数字特征
已知x的数学期望和协方差矩阵 求y的期望和协方差矩阵
期望
原理
∵ y = Ax
∴ E(y) = A E(x)
协方差
原理
V(y) = A V(x)A’
欧式距离和马氏距离
欧式距离
定义
对两个 $p$ 维向量 $\mathbf{x}, \mathbf{y} \in \mathbb{R}^p$,其欧式距离为:
$$
d_E(\mathbf{x}, \mathbf{y}) = |\mathbf{x} - \mathbf{y}|2 = \sqrt{(\mathbf{x} - \mathbf{y})^\top (\mathbf{x} - \mathbf{y})} = \sqrt{\sum{i=1}^p (x_i - y_i)^2}
$$
特点
- 几何直观:即高维空间中的“直线距离”
- 各变量平等对待:未考虑变量的量纲(单位)与相关性
- 对尺度敏感:若某变量单位是“米”,另一是“毫米”,后者将主导距离计算
示例
设
$$
\mathbf{x} = \begin{bmatrix}100\ 1\end{bmatrix},\quad
\mathbf{y} = \begin{bmatrix}99\ 2\end{bmatrix}
\Rightarrow d_E = \sqrt{(1)^2 + (-1)^2} = \sqrt{2} \approx 1.41
$$
看似接近,但如果第一维是“身高(cm)”,第二维是“体重(kg)”,实际意义可能并不对等。
马氏距离
定义
给定协方差矩阵 $\boldsymbol{\Sigma}$(假设正定,即 $\boldsymbol{\Sigma} > 0$),点 $\mathbf{x}$ 到均值 $\boldsymbol{\mu}$ 的马氏距离为:
$$
d_M(\mathbf{x}, \boldsymbol{\mu}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})}
$$
两点间马氏距离(以某一总体协方差为基准):
$$
d_M(\mathbf{x}, \mathbf{y}) = \sqrt{(\mathbf{x} - \mathbf{y})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \mathbf{y})}
$$
实际中,$\boldsymbol{\Sigma}^{-1}$ 常用样本协方差矩阵 $\mathbf{S}^{-1}$ 估计。
核心思想
- 标准化 + 去相关:相当于对数据先做白化变换(Whitening):
令 $\mathbf{z} = \boldsymbol{\Sigma}^{-1/2}(\mathbf{x} - \boldsymbol{\mu})$,则 $\operatorname{Cov}(\mathbf{z}) = \mathbf{I}$,此时:
$$
d_M(\mathbf{x}, \boldsymbol{\mu}) = |\mathbf{z}|_2 = d_E(\mathbf{z}, \mathbf{0})
$$ - 自动消除量纲影响,并考虑变量间相关性
几何解释
- 等马氏距离的点集构成一个椭球面,主轴方向由 $\boldsymbol{\Sigma}$ 的特征向量决定,长短轴由特征值决定
- 若 $\boldsymbol{\Sigma} = \sigma^2 \mathbf{I}$,则马氏距离退化为欧式距离的缩放:
$$
d_M = \frac{1}{\sigma} d_E
$$
示例
设二维正态总体:
$$
\boldsymbol{\mu} = \begin{bmatrix}0\0\end{bmatrix},\quad
\boldsymbol{\Sigma} = \begin{bmatrix}4 & 3\3 & 5\end{bmatrix}
\Rightarrow
\boldsymbol{\Sigma}^{-1} = \frac{1}{4\cdot5 - 3^2} \begin{bmatrix}5 & -3\-3 & 4\end{bmatrix}
= \frac{1}{11} \begin{bmatrix}5 & -3\-3 & 4\end{bmatrix}
$$
取 $\mathbf{x} = \begin{bmatrix}2\1\end{bmatrix}$,则:
$$
\mathbf{x} - \boldsymbol{\mu} = \begin{bmatrix}2\1\end{bmatrix},\quad
d_M^2 = \begin{bmatrix}2 & 1\end{bmatrix} \cdot \frac{1}{11} \begin{bmatrix}5 & -3\-3 & 4\end{bmatrix} \cdot \begin{bmatrix}2\1\end{bmatrix}
= \frac{1}{11} (2,1) \begin{bmatrix}10 - 3 \ -6 + 4\end{bmatrix}
= \frac{1}{11} (2,1) \begin{bmatrix}7 \ -2\end{bmatrix}
= \frac{14 - 2}{11} = \frac{12}{11}
$$
$$
\Rightarrow d_M = \sqrt{12/11} \approx 1.045
$$
若用欧式距离:$d_E = \sqrt{4 + 1} = \sqrt{5} \approx 2.236$,显然高估了“实际偏离程度”。
我们来逐步解答这个连续型随机向量的联合密度函数标准化与独立性判断问题——这是多元统计分析中概率基础与独立性检验的经典考点。
联合密度
给定三元函数:
$$
f(x, y, z) = k x y z^2, \quad \text{定义域: } 0 < x < 1,; 0 < y < 1,; 0 < z < 3
$$
其余区域 $f = 0$。
要求:
- 求常数 $k$,使得 $f(x,y,z)$ 为合法的联合概率密度函数(pdf);
- 判断随机变量 $X, Y, Z$ 是否相互独立。
📌 考点:联合密度的归一化条件
对任意联合 pdf,必须满足:
$$
\iiint_{\mathbb{R}^3} f(x,y,z),dx,dy,dz = 1
$$
由于支撑集为 $(0,1)\times(0,1)\times(0,3)$,仅在此区域积分:
$$
\int_0^3 \int_0^1 \int_0^1 k, x y z^2 ; dx, dy, dz = 1
$$
因被积函数可分离变量,积分可拆:
$$
k \left( \int_0^1 x,dx \right) \left( \int_0^1 y,dy \right) \left( \int_0^3 z^2,dz \right) = 1
$$
分别计算:
- $\int_0^1 x,dx = \left[ \frac{x^2}{2} \right]_0^1 = \frac{1}{2}$
- $\int_0^1 y,dy = \frac{1}{2}$
- $\int_0^3 z^2,dz = \left[ \frac{z^3}{3} \right]_0^3 = \frac{27}{3} = 9$
代入:
$$
k \cdot \frac{1}{2} \cdot \frac{1}{2} \cdot 9 = k \cdot \frac{9}{4} = 1
\quad \Rightarrow \quad
k = \frac{4}{9}
$$
✅ 答案 1:
$$
\boxed{k = \dfrac{4}{9}}
$$
📌 考点:相互独立的充要条件
随机变量 $X, Y, Z$ 相互独立
$\iff$ 联合密度可分解为边缘密度的乘积:
$$
f(x,y,z) = f_X(x), f_Y(y), f_Z(z), \quad \forall x,y,z
$$
我们采用构造边缘密度 → 验证乘积是否等于联合密度的方法。
① 求边缘密度
$f_X(x)$:
$$
f_X(x) = \int_0^3 \int_0^1 f(x,y,z), dy, dz
= \int_0^3 \int_0^1 \frac{4}{9} x y z^2 , dy, dz
$$
先对 $y$ 积分:
$$
\int_0^1 y,dy = \frac{1}{2} \quad \Rightarrow\quad
f_X(x) = \frac{4}{9} x \cdot \frac{1}{2} \cdot \int_0^3 z^2,dz
= \frac{4}{9} x \cdot \frac{1}{2} \cdot 9 = 2x
$$
✔️ 支撑集:$0 < x < 1$,故
$$
f_X(x) = 2x,\quad 0<x<1
$$
$f_Y(y)$:由对称性($x$ 与 $y$ 在 $f$ 中地位相同)
$$
f_Y(y) = 2y,\quad 0<y<1
$$
$f_Z(z)$:
$$
f_Z(z) = \int_0^1 \int_0^1 f(x,y,z), dx, dy
= \frac{4}{9} z^2 \int_0^1 x,dx \int_0^1 y,dy
= \frac{4}{9} z^2 \cdot \frac{1}{2} \cdot \frac{1}{2}
= \frac{4}{9} z^2 \cdot \frac{1}{4} = \frac{1}{9} z^2
$$
✔️ 支撑集:$0 < z < 3$,故
$$
f_Z(z) = \frac{1}{9} z^2,\quad 0<z<3
$$
② 检验乘积是否等于联合密度
计算:
$$
f_X(x) f_Y(y) f_Z(z) = (2x)(2y)\left(\frac{1}{9}z^2\right) = \frac{4}{9} x y z^2
$$
而这正是:
$$
f(x,y,z) = \frac{4}{9} x y z^2
$$
✅ 完全一致!
✅ 答案 2:
$$
\boxed{X,;Y,;Z\ \text{相互独立}}
$$
💡 注意:虽然 $f(x,y,z)$ 是乘积形式 $k \cdot x \cdot y \cdot z^2$,但不能仅凭形式判断独立!
必须验证:各因子的支撑集是矩形区域(即各变量定义域互不依赖),且归一化后边缘积等于联合。本题满足,故独立。
- Title: 多元统计分析
- Author: 姜智浩
- Created at : 2025-12-28 11:45:14
- Updated at : 2025-12-28 21:36:46
- Link: https://super-213.github.io/zhihaojiang.github.io/2025/12/28/20260116多元统计分析习题/
- License: This work is licensed under CC BY-NC-SA 4.0.