偏差方差權衡

出自集智百科
跳轉到: 導覽搜尋

統計學機器學習中,偏差方差分析是一組預測性模型的特性,意味著參數估計偏差較小的模型在樣本間的參數估計有較高的方差,反之亦然。偏差方差困境是不能同時最小化這兩個誤差來源的衝突問題,這兩個誤差來源讓有監督學習演算法不能在訓練集上很好地進行泛化。

  • 偏差(bias)來自於學習演算法中錯誤假設造成的誤差。高偏差會導致演算法不能將特徵與目標輸出很好地關聯起來。(欠擬合)
  • 方差(variance)來自於演算法對訓練集中小波動敏感性造成的誤差。高方差會導致演算法對訓練集中的隨機雜訊進行建模而不是目標輸出。(過擬合

這種權衡適用於所有的有監督學習模型:分類,回歸(函數擬合),[1][2]結構化輸出學習。它也被用來解釋啟發式學習在人類學習中的有效性。[3]

偏差方差困境是在特定問題下,分析學習演算法泛化預期誤差的一種方式,泛化誤差來自於三個部分:偏差,方差,以及一個稱之為「不可避免誤差」的量,這個誤差一般是問題本身的噪音產生的。


目錄

動機

方差偏差分析是有監督學習的一個核心問題。理想情況下,人們希望選擇一種模型,這種模型既能準確捕獲訓練數據規律性,又能很好的概括未知數據。不幸的是,通常是不可能同時做到這兩點的。高方差的學習方法可能能夠很好的表達它的數據集但,但是可能過度擬合雜訊或不具備代表性的訓練數據。相比之下,低方差的演算法通常會生成一個更簡單的模型,這種模型不會過擬合,但是會導致在訓練數據上欠擬合,無法捕捉到重要的規律。 低偏差的模型通常比較複雜(如高階回歸多項式),這使得它們能夠更準確的表達訓練集。然而,在這個過程中,它們也可能表示了訓練集中的一個巨大的雜訊的一部分,儘管複雜性增加了,也使得它們的預測變得不是那麼的準確。相比之下,具有較高偏差的模型往往相對較簡單(低階甚至是線性的回歸多項式),但是在訓練集之外應用時可能會產生較低方差的預測。

偏差與方差的平方分解

假設我們有一個訓練集包含一個點集 x_1, \cdots , x_n 以及與x_i相關的實值y_i。我們假定一個有雜訊的函數y=f(x)+\varepsilon,其中\varepsilon是有著0均值和\sigma^2方差的雜訊。

我們想要通過學習演算法找到一個函數\hat{f}(x)使其盡量擬合真實的函數f(x)。我們所謂的「儘可能」是使用\hat{f}(x)y之間的均方誤差來表達的,即我們想要(y - \hat{f}(x))^2對於x_1, \cdots , x_n和樣本外的點都最小。當然,我們不可能完美做到這一點,因為y_i必定會包含雜訊\varepsilon,這意味對於我們得到的所有函數,我們都要接受其中存在這不可避免的誤差。 任意一個有監督機器學習演算法,都可以使得\hat{f}(x)對訓練集之外的點進行泛化。結果就是,無論我們選擇了哪個\hat{f}(x)函數,我們可以使用一個樣本外的任意x分解期望誤差:

\mathrm { E } \left[ ( y - \hat { f } ( x ) ) ^ { 2 } \right] = ( \operatorname { Bias } [ \hat { f } ( x ) ] ) ^ { 2 } + \mathrm { Var } [ \hat { f } ( x ) ] + \sigma ^ { 2 }

其中:


\text { Bias } [ \hat { f } ( x ) ] = \mathrm { E } [ \hat { f } ( x ) - f ( x ) ]以及:
\begin{align}\operatorname{Var}\big[\hat{f}(x)\big] = \operatorname{E}[\hat{f}(x)^2] - \Big(\operatorname{E}[{\hat{f}}(x)]\Big)^2\end{align}

期望包括了不同訓練集的選擇,這些樣本都來自於同樣的聯合分布P(x,y),這三個項分別表示:

  • 學習方法偏差的平方可以視作因為簡化假設導致的誤差。比如,當我們想要擬合一個非線性的函數f(x)卻使用了一個線性的模型,於是估計\hat{f}(x)就會存在存在誤差。
  • 學習方法的方差或者直觀地來說就是學習方法\hat{f}(x)多大程度上偏離了其均值。
  • 不可約誤差\sigma^2。因為這三項都是非負的,這三項組成了訓練集外樣本的期望誤差的下界。

\hat{f}(x)的模型越複雜,那麼它就可以擬合越多的數據點,偏差也就會越低。然而,複雜度會使得模型更加「偏向於」擬合數據點,因此方差就會變大。

推導

偏差方差平方分解的推導過程如下。[4][5]為了記號上的方便,引入兩個縮寫f = f(x) 以及 \hat{f} = \hat{f}(x)。首先,回憶一下,通過定義對於任意的隨機變數X,我們有:

\begin{align}\operatorname{Var}[X] = \operatorname{E}[X^2] - \Big(\operatorname{E}[X]\Big)^2\end{align}

整理得到:

\begin{align}\operatorname{E}[X^2] = \operatorname{Var}[X] + \Big(\operatorname{E}[X]\Big)^2\end{align}

因為 f確定的

\begin{align}\operatorname{E}[f] = f\end{align}.

這裡, 給定 y = f + \epsilon and \operatorname{E}[\epsilon] = 0, 令 \operatorname{E}[y] = \operatorname{E}[f + \epsilon] = \operatorname{E}[f] = f. 同理因為 \operatorname{Var}[\varepsilon] = \sigma^2, 於是, 因為 \epsilon\hat{f} 是獨立的,我們可以寫成:

\begin{align}\operatorname{E}\big[(y - \hat{f})^2\big] & = \operatorname{E}[y^2 + \hat{f}^2 - 2 y\hat{f}] \\ & = \operatorname{E}[y^2] + \operatorname{E}[\hat{f}^2] - \operatorname{E}[2y\hat{f}] \\ & = \operatorname{Var}[y] + \operatorname{E}[y]^2 + \operatorname{Var}[\hat{f}] + \Big(\operatorname{E}[\hat{f}]\Big)^2 - 2f\operatorname{E}[\hat{f}] \\ & = \operatorname{Var}[y] + \operatorname{Var}[\hat{f}] + \Big(f^2 - 2f\operatorname{E}[\hat{f}] + (\operatorname{E}[\hat{f}])^2\Big) \\ & = \operatorname{Var}[y] + \operatorname{Var}[\hat{f}] + (f - \operatorname{E}[\hat{f}])^2 \\ & = \sigma^2 + \operatorname{Var}[\hat{f}] + \operatorname{Bias}[\hat{f}]^2\end{align}

回歸應用

偏差方差分解回歸正則化方法的基礎,比如 Lassoridge 回歸。正則化方法將偏置項引入了回歸的解,這樣可以大大減少相對與一般的最小平方(OLS)的解法的方差。雖然OLS的解法提供了非偏置回顧估計,但正則化技術產生的較低的方差提供了優越的MSE的性能。

分類應用

偏差方差分解最初是為最小二乘法回歸提出的。對於在0-1損失(錯誤分類率)下的分類,可能會發現類似的分解。[6][7] 或者,如果分類問題可以被稱為概率分類,那麼對於真實概率的預期平方誤差可以像之前一樣地分解。[8]

方法

降維特徵選擇可以通過簡化模型來減少方差。同樣,一個更大的訓練集也會減少方差。[9]增加特徵(預測器)傾向於減少偏差,而不是引入額外的方差。學習演算法通常有一些控制偏差和方差的可調整參數。列如:


  • 廣義的)線性模型可以被正則化來減小方差但是代價是增大偏差。
  • 人工神經網路中,隨著隱層數量的增加,方差增大但是偏差減小。像GLMs,通常會使用正則化方法。
  • k鄰近模型中,一個很大的k值會導致很大的偏差和很低的偏差(如下)。
  • 實例學習中,正則化可以通過改變不同的原型和範例的組合來實現。[10]
  • 在[decision trees 決策樹]中,樹的深度決定了方差。決策樹通常會剪枝來控制方差。一種解決這種權衡的方法是使用混合模型和集成學習。.[11][12]比如,boosting演算法組合很多「弱」(高偏差)模型來集成出一個低方差且獨立的模型,而bagging演算法用一種方式組合了「強」學習器來減小他們的方差。

k鄰近

k鄰近回歸的情況下,參數k的偏差方差分解的閉式表達是存在的::\operatorname{E}[(y - \hat{f}(x))^2\mid X=x] = \left( f(x) - \frac{1}{k}\sum_{i=1}^k f(N_i(x)) \right)^2 + \frac{\sigma^2}{k} + \sigma^2其中N_1(x), \dots, N_k(x)是x的k個訓練集中的鄰近。偏差(第一項)是k的單調遞增函數,然而偏差(第二項)是k的遞減函數。實際上,在可行的假設下,最鄰近估計器的偏差會完全消失當訓練集趨向於無窮大的時候。


人類學習中的應用

雖然我們在機器學習的背景下廣泛討論了這個問題,但在人類認知方面,尤其是 Gerd Gigerenzer 和他同事在啟發式學習背景下,對偏差方差困境進行了研究。他們認為(見參考),人類大腦通過採用高偏差/低方差的啟發式學習方法,在典型的稀疏、缺乏特點的訓練集中,人類大腦解決了這種困境。這反映了這樣一個事實,零偏差方法對新情況的泛化性較差,而且不合理的假定準確推測了世界的真實狀況。由此嘗試的啟發式學習方法相對簡單,但是在更廣泛的情況下會有更好的推論。[ https://en.wikipedia.org/wiki/Stuart_Geman Geman]等人認為,偏差方差困境意味著一般性的物體識別這樣的能力是無法從零開始學習的,而是需要一定的「硬編碼」,再根據經驗來調整。這是因為無模型的推理方法需要不切實際的大型訓練集,才能避免高方差。

參考

引用

  1. Geman, Stuart; E. Bienenstock; R. Doursat (1992). "Neural networks and the bias/variance dilemma". Neural Computation 4: 1–58. Error: Bad DOI specifiedTemplate:Namespace detect showall. http://web.mit.edu/6.435/www/Geman92.pdf.
  2. Bias–variance decomposition, In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. pp. 100-101
  3. Gigerenzer, Gerd; Brighton, Henry (2009). "Homo Heuristicus: Why Biased Minds Make Better Inferences". Topics in Cognitive Science 1: 107–143. Error: Bad DOI specifiedTemplate:Namespace detect showall. PMID 25164802.
  4. Template:High-use Template:AWB standard installation Template:Citation Style documentation/lua Template:Citation Style documentation/cs1 Template:Citation Style documentation/lead Template:Citation Style 1 Template:Wikipedia referencing Template:UF-COinS
  5. Template:High-use Template:AWB standard installation Template:Citation Style documentation/lua Template:Citation Style documentation/cs1 Template:Citation Style documentation/lead Template:Citation Style 1 Template:Wikipedia referencing Template:UF-COinS
  6. {{#invoke:citation/CS1|citation |CitationClass=conference }}
  7. Valentini, Giorgio; Dietterich, Thomas G. (2004). "Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods". JMLR 5: 725–775.
  8. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introduction to Information Retrieval. Cambridge University Press. pp. 308–314. http://nlp.stanford.edu/IR-book/.
  9. Belsley, David (1991). Conditioning diagnostics : collinearity and weak data in regression. New York: Wiley. ISBN 978-0471528890.
  10. Gagliardi, F (2011). "Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction". Artificial Intelligence in Medicine 52 (3): 123–139. Error: Bad DOI specifiedTemplate:Namespace detect showall.
  11. Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal, Locally Weighted Regression for Control. In Encyclopedia of Machine Learning. Eds. Claude Sammut, Geoffrey I. Webb. Springer 2011. p. 615
  12. Scott Fortmann-Roe. Understanding the Bias–Variance Tradeoff. 2012. http://scott.fortmann-roe.com/docs/BiasVariance.html
個人工具
名字空間
動作
導覽
工具箱