本條目存在以下問題 ,請協助
改善本條目 或在
討論頁 針對議題發表看法。
此條目需要
精通或熟悉相关主题的编者 参与及协助编辑。
(2015年12月9日 ) 請邀請 適合的人士改善本条目 。更多的細節與詳情請參见討論頁 。
此条目的主題是變異數,又稱方差、變方。关于与「
方差 」標題相近或相同的条目,請見「
變異係數 」。
方差 (英語:Variance ),應用數學 裡的專有名詞。在概率论 和统计学 中,一个随机变量 的方差 描述的是它的离散程度,也就是该变量离其期望值 的距离。一个实随机变量的方差也称为它的二阶矩 或二階中心動差,恰巧也是它的二阶累积量。這裡把複雜說白了,就是將各個誤差之平方(而非取絕對值,使之肯定為正數),相加之後再除以總數,透過這樣的方式來算出各個數據分佈、零散(相對中心點)的程度。繼續延伸的話,方差的正平方根 称为该随机变量的标准差 (此為相對各個數據點間),方差除以期望值 归一化的值叫分散指数 ,标准差除以期望值 归一化的值叫变异系数 。
定义
设X为服从分布F的随机变量,
如果E[X]是随机变数X 的期望值 (平均數μ =E[X ] )
随机变量X或者分布F的方差 為:
Var
(
X
)
=
E
[
(
X
−
μ
)
2
]
{\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]}
这个定义涵盖了连续、离散、或兩者都有的隨機變數。方差亦可當作是隨機變數與自己本身的共變異數 :
Var
(
X
)
=
Cov
(
X
,
X
)
{\displaystyle \operatorname {Var} (X)=\operatorname {Cov} (X,X)}
方差典型的標記有Var(X ),
σ
X
2
{\displaystyle \scriptstyle \sigma _{X}^{2}}
, 或是
σ
2
{\displaystyle \sigma ^{2}}
,其表示式可展開成為:
Var
(
X
)
=
E
[
X
2
−
2
X
E
[
X
]
+
(
E
[
X
]
)
2
]
=
E
[
X
2
]
−
2
E
[
X
]
E
[
X
]
+
(
E
[
X
]
)
2
=
E
[
X
2
]
−
(
E
[
X
]
)
2
{\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+(\operatorname {E} [X])^{2}\right]=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+(\operatorname {E} [X])^{2}=\operatorname {E} \left[X^{2}\right]-(\operatorname {E} [X])^{2}}
上述的表示式可記為"平方的期望減掉期望的平方"。
離散隨機變數
如果隨機變數X 是具有機率質量函數的離散機率分佈 x 1 ↦ p 1 , ..., x n ↦ p n ,則:
Var
(
X
)
=
∑
i
=
1
n
p
i
⋅
(
x
i
−
μ
)
2
=
∑
i
=
1
n
(
p
i
⋅
x
i
2
)
−
μ
2
{\displaystyle \operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}=\sum _{i=1}^{n}(p_{i}\cdot x_{i}^{2})-\mu ^{2}}
此處
μ
{\displaystyle \mu }
是其期望值, 即:
μ
=
∑
i
=
1
n
p
i
⋅
x
i
{\displaystyle \mu =\sum _{i=1}^{n}p_{i}\cdot x_{i}}
.
當X 為有n 個相等機率值的平均分佈:
Var
(
X
)
=
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
=
1
n
(
∑
i
=
1
n
x
i
2
−
n
μ
2
)
=
∑
i
=
1
n
x
i
2
n
−
μ
2
{\displaystyle \operatorname {Var} (X)=\sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}-n\mu ^{2}\right)={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n}}-\mu ^{2}}
n 個相等機率值的方差亦可以點對點間的方變量表示為:
Var
(
X
)
=
1
n
2
∑
i
=
1
n
∑
j
=
1
n
1
2
(
x
i
−
x
j
)
2
{\displaystyle \operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}}
连续型随机变量
如果随机变量X 是連續分布,並對應至概率密度函數f (x ),則其方差為:
Var
(
X
)
=
σ
2
=
∫
(
x
−
μ
)
2
f
(
x
)
d
x
=
∫
x
2
f
(
x
)
d
x
−
μ
2
{\displaystyle \operatorname {Var} (X)=\sigma ^{2}=\int (x-\mu )^{2}\,f(x)\,dx\,=\int x^{2}\,f(x)\,dx\,-\mu ^{2}}
此處
μ
{\displaystyle \mu }
是一期望值,
μ
=
∫
x
f
(
x
)
d
x
{\displaystyle \mu =\int x\,f(x)\,dx\,}
且此處的積分為以X 為範圍的x定積分 (definite integral)
如果一個連續分佈不存在期望值,如柯西分佈 (Cauchy distribution),也就不會有方差(不予定义)。
特性
方差不會是負的,因為次方計算為正的或為零:
Var
(
X
)
≥
0
{\displaystyle \operatorname {Var} (X)\geq 0}
一個常數隨機變數的方差為零,且當一個資料集的方差為零時,其內所有項目皆為相同數值:
P
(
X
=
a
)
=
1
⇔
Var
(
X
)
=
0
{\displaystyle P(X=a)=1\Leftrightarrow \operatorname {Var} (X)=0}
方差不變於定位參數的變動。也就是說,如果一個常數被加至一個數列中的所有變數值,此數列的方差不會改變:
Var
(
X
+
a
)
=
Var
(
X
)
.
{\displaystyle \operatorname {Var} (X+a)=\operatorname {Var} (X).}
如果所有數值被放大一個常數倍,方差會放大此常數的平方倍:
Var
(
a
X
)
=
a
2
Var
(
X
)
{\displaystyle \operatorname {Var} (aX)=a^{2}\operatorname {Var} (X)}
兩個隨機變數合的方差為:
Var
(
a
X
+
b
Y
)
=
a
2
Var
(
X
)
+
b
2
Var
(
Y
)
+
2
a
b
Cov
(
X
,
Y
)
,
{\displaystyle \operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y),}
Var
(
X
−
Y
)
=
Var
(
X
)
+
Var
(
Y
)
−
2
Cov
(
X
,
Y
)
,
{\displaystyle \operatorname {Var} (X-Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)-2\,\operatorname {Cov} (X,Y),}
此數Cov(., .)代表共變異數 。
對於
N
{\displaystyle N}
個隨機變數
{
X
1
,
…
,
X
N
}
{\displaystyle \{X_{1},\dots ,X_{N}\}}
的總和:
Var
(
∑
i
=
1
N
X
i
)
=
∑
i
,
j
=
1
N
Cov
(
X
i
,
X
j
)
=
∑
i
=
1
N
Var
(
X
i
)
+
∑
i
≠
j
Cov
(
X
i
,
X
j
)
{\displaystyle \operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j})}
在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间 :
L2 (Ω, dP),不过这裡的内积和长度跟协方差,标准差还是不大一样。
所以,我们得把这个空间“除”常变量构成的子空间,也就是说把相差一个常数的
所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间,
并且有一个从旧空间内积诱导出来的新内积,而这个内积就是协方差。
一般化
如果X 是一个向量 其取值范围在實數空间R n ,并且其每个元素都是一个一维随机变量,我们就把X 称为随机向量 。随机向量的方差是一维随机变量方差的自然推广,其定义为E[(X − μ)(X − μ)T ],其中μ = E(X ),X T 是X 的转置。这个方差是一个非负定 的方阵 ,通常称为协方差矩阵 。
如果X 是一个複數随机变量的向量(向量中每個元素均為複數的隨機變數),那么其方差定义则为E[(X − μ)(X − μ)* ],其中X * 是X 的共轭转置 向量或稱為埃尔米特向量 。根据这个定义,變異數 为实数。
历史
「方差 」(variance)这个名词率先由羅納德·費雪 (英語:Ronald Fisher )在论文《The Correlation Between Relatives on the Supposition of Mendelian Inheritance 》[ 1] 中提出。后来「半方差 」(semi variance ),「亚方差 」(hypo variance),「超方差 」(super variance),「圆方差 」(circular variance )与「倒方差 」(inverse variance)等类似概念也被逐渐延伸出去。
参考文献
参见