機器學習算法中的概率方法

本文作者： AI科技評論

編輯：汪思穎

2019-03-17 10:47

導語：本文介紹四種最常用的概率方法：線性回歸、對數幾率回歸、Softmax 回歸和樸素貝葉斯分類器。

雷鋒網 AI 科技評論按，本文作者張皓，目前為南京大學計算機系機器學習與數據挖掘所（LAMDA）碩士生，研究方向為計算機視覺和機器學習，特別是視覺識別和深度學習。

個人主頁：http://lamda.nju.edu.cn/zhangh/。該文為其對雷鋒網 AI 科技評論的獨家供稿，未經許可禁止轉載。

摘要

本文介紹機器學習算法中的概率方法。概率方法會對數據的分布進行假設，對概率密度函數進行估計，并使用這個概率密度函數進行決策。本文介紹四種最常用的概率方法：線性回歸 (用于回歸任務)、對數幾率回歸 (用于二分類任務)、Softmax 回歸 (用于多分類任務) 和樸素貝葉斯分類器 (用于多分類任務)。* 前三
種方法屬于判別式模型，而樸素貝葉斯分類器屬于生成式模型。（*嚴格來說，前三者兼有多種解釋，既可以看做是概率方法，又可以看做是非概率方法。）

本系列文章有以下特點: (a). 為了減輕讀者的負擔并能使盡可能多的讀者從中收益，本文試圖盡可能少地使用數學知識，只要求讀者有基本的微積分、線性代數和概率論基礎，并在第一節對關鍵的數學知識進行回顧和介紹。(b). 本文不省略任何推導步驟，適時補充背景知識，力圖使本節內容是自足的，使機器學習的初學者也能理解本文內容。(c). 機器學習近年來發展極其迅速，已成為一個非常廣袤的領域。本文無法涵蓋機器學習領域的方方面面，僅就一些關鍵的機器學習流派的方法進行介紹。(d). 為了幫助讀者鞏固本文內容，或引導讀者擴展相關知識，文中穿插了許多問題，并在最后一節進行問題的“快問快答”。

1 準備知識

本節給出概率方法的基本流程，后續要介紹的不同的概率方法都遵循這一基本流程。

1.1 概率方法的建模流程

(1). 對 p(y | x; θ) 進行概率假設。我們假定 p(y| x; θ)具有某種確定的概率分布形式，其形式被參數向量
θ 唯一地確定。

(2). 對參數 θ 進行最大后驗估計。基于訓練樣例對概率分布的參數 θ 進行最大后驗估計 (maximum a posteriori, MAP)，得到需要優化的損失函數。

最大后驗估計是指

機器學習算法中的概率方法

其在最大化時考慮如下兩項：

? 參數的先驗分布 p(θ)。最大后驗估計認為參數 θ 未知并且是一個隨機變量，其本身服從一個先驗分布 p(θ)。這個先驗分布蘊含了我們關于參數的領域知識。

? 基于觀測數據得到的似然 (likelihood) p(D | θ)。最大化似然是在 θ 的所有可能的取值中，找到一個能使樣本屬于其真實標記的概率最大的值。

最大后驗估計是在考慮先驗分布 p(θ) 時最大化基于觀測數據得到的似然 (likelihood) p(D | θ)。

參數估計的兩個不同學派的基本觀點是什么? 這實際上是參數估計 (parameter estimation) 過程，統計學中的頻率主義學派 (frequentist) 和貝葉斯學派(Bayesian) 提供了不同的解決方案 [3, 9] 。頻率主義學派認為參數雖然未知，但卻是客觀存在的固定值，因此通常使用極大似然估計來確定參數值。貝葉斯學派則認為參數是未觀察到的隨機變量，其本身也可有分布，因此，可假定參數服從一個先驗分布，然后基于觀察到的數據來計算參數的后驗分布。

定理 1. 最大后驗估計的結果是優化如下形式的損失函數

機器學習算法中的概率方法

Proof. 利用樣例的獨立同分布假設，

機器學習算法中的概率方法

經驗風險和結構風險的含義? L(θ) 的第一項稱為經驗風險 (empirical risk)，用于描述模型與訓練數據的契合程度。第二項稱為結構風險 (structural risk) 或正則化項 (regularization term)，源于模型的先驗概率，表述了我們希望獲得何種性質的模型 (例如希望獲得復雜度較小的模型)。λ 稱為正則化常數，對兩者進行折中。

結構風險的作用? (1). 為引入領域知識和用戶意圖提供了途徑。(2). 有助于削減假設空間，從而降低了最小化訓練誤差的過擬合風險。這也可理解為一種 “罰函數法”，即對不希望得到的結果施以懲罰，從而使得優化過程趨向于希望目標。?p 范數是常用的正則化項。

機器學習算法中的概率方法

其中先驗分布機器學習算法中的概率方法的參數轉化為正則化常數 λ。

為什么最常假設參數的先驗分布是高斯分布 (或最常使用機器學習算法中的概率方法正則化)? 這是因為高斯分布 N (μ; Σ) 是所有均值和熵存在且協方差矩陣是 Σ 的分布中熵最大的分布。最大熵分布是在特定約束下具有最大不確定性的分布。在沒有更多信息的情況下，那些不確定的部分都是 “等可能的”。在設計先驗分布 p(θ) 時，除了我們對參數的認知 (例如均值和值域) 外，我們不想引入任何其余的偏見 (bias)。因此最大熵先驗 (對應機器學習算法中的概率方法正則化) 常被使用。除高斯先驗外，還可以使用不提供信息的先驗(uninformative prior)，其在一定范圍內均勻分布，對應的損失函數中沒有結構風險這一項。

(3). 對損失函數 L(θ) 進行梯度下降優化。

機器學習算法中的概率方法

梯度下降的細節留在下一節介紹。

概率方法的優缺點各是什么? 優點: 這種參數化的概率方法使參數估計變得相對簡單。缺點: 參數估計結果的準確性嚴重依賴于所假設的概率分布形式是否符合潛在的真實數據分布。在現實應用中，欲做出能較好地接近潛在真實分布的假設，往往需在一定程度利用關于應用任務本身的經驗知識，否則僅憑 “猜測”來假設概率分布形式，很可能產生誤導性的結果。我們不一定非要概率式地解釋這個世界，在不考慮概率的情況下，直接找到分類邊界，也被稱為判別函數 (discriminant function)，有時甚至能比判別式模型產生更好的結果。

1.2 梯度下降

我們的目標是求解下列無約束的優化問題。

機器學習算法中的概率方法

其中 L(θ) 是連續可微函數。梯度下降是一種一階 (frstorder) 優化方法，是求解無約束優化問題最簡單、最經典的求解方法之一。

梯度下降的基本思路? 梯度下降貪心地迭代式地最小化 L(θ)。梯度下降希望找到一個方向 (單位向量) v 使得 L 在這個方向下降最快，并在這個方向前進 α 的距離

機器學習算法中的概率方法

定理 3. 梯度下降的更新規則是公式 5。重復這個過程，可收斂到局部極小點。

Proof. 我們需要找到下降最快的方向 v 和前進的距離α。

(1). 下降最快的方向 v。利用泰勒展開

機器學習算法中的概率方法

的一階近似，

機器學習算法中的概率方法

即下降最快的方向是損失函數的負梯度方向。

(2). 前進的距離 α。我們希望在開始的時候前進距離大一些以使得收斂比較快，而在接近最小值時前進距離小一些以不錯過最小值點。因此，我們設前進距離為損失函數梯度的一個倍數

機器學習算法中的概率方法

其中 η 被稱為學習率 (learning rate)。

向公式 7 代入最優的機器學習算法中的概率方法和后即得。

機器學習算法中的概率方法

則稱 f 為區間 [a,b] 上的凸函數 (convex function)。當 < 成立時，稱為嚴格凸函數 (strict convex function)。U形曲線的函數如機器學習算法中的概率方法通常是凸函數。

機器學習算法中的概率方法

2 線性回歸

2.1 建模流程

線性回歸 (linear regression) 回歸問題機器學習算法中的概率方法。其建模方法包括如下三步 (參見第 1.1 節)。

(1). 對 p(y | x; θ) 進行概率假設。

我們假設

機器學習算法中的概率方法

機器學習算法中的概率方法被稱為誤差項，捕獲了 (a)。特征向量 x 中沒有包含的因素.

(b). 隨機噪聲。對不同的樣本機器學習算法中的概率方法是獨立同分布地從中進行采樣得到的。

線性回歸的假設函數是

機器學習算法中的概率方法

為了書寫方便，我們記

機器學習算法中的概率方法

那么公式 12 等價于

機器學習算法中的概率方法

在本文其余部分我們將沿用這一簡化記號。因此，

機器學習算法中的概率方法

(2). 對參數 θ 進行最大后驗估計。

定理 7. 假設參數 θ 服從高斯先驗，對參數 θ 進行最大后驗估計等價于最小化如下損失函數

機器學習算法中的概率方法

其中

機器學習算法中的概率方法

被稱為平方損失 (square loss)。在線性回歸中，平方損失就是試圖找到一個超平面機器學習算法中的概率方法，使所有樣本到該超平面的歐式距離 (Euclidean distance) 之和最小。

機器學習算法中的概率方法

Proof

機器學習算法中的概率方法

其中，最后一行只是為了數學計算上方便，下文推導對數幾率回歸和 Softmax 回歸時的最后一步亦然。

(3). 對損失函數 L(θ) 進行梯度下降優化。

可以容易地得到損失函數對參數的偏導數

機器學習算法中的概率方法

2.2 線性回歸的閉式解

線性回歸對應的平方損失的函數形式比較簡單，可以通過求機器學習算法中的概率方法直接得到最優解。

定理 8. 線性回歸的閉式解為

機器學習算法中的概率方法

Proof. L(θ) 可等價地寫作

機器學習算法中的概率方法

令

機器學習算法中的概率方法

那么

機器學習算法中的概率方法

求解

機器學習算法中的概率方法

即得。

機器學習算法中的概率方法不可逆的情況及解決方案? (1). 屬性數 d+1 多于樣例數 m。(2). 屬性之間線性相關。通過正則化項

mλI，即使機器學習算法中的概率方法不可逆， + mλI 仍是可逆的。

2.3 其他正則化回歸模型

事實上，上文介紹的線性回歸模型是嶺回歸 (ridge regression)。根據正則化項的不同，有三種常用的線性回歸模型，見表 1。

基于 ?0、?1 和 ?2 范數正則化的效果? ?2 范數傾向于 w 的分量取值盡量均衡，即非零分量個數盡量稠密。而 ?0“范數”和 ?1 范數則傾向于 w 的分量盡量稀疏，即非零分量個數盡量少，優化結果得到了僅采用一部分屬性的模型。也就是說，基于 ?0“范數”和 ?1 范數正則化的學習方法是一種嵌入式 (embedding) 特征選擇方法，其特征選擇過程和學習器訓練過程融為一體，兩者在同一個優化過程中完成。事實上，對 w 施加稀疏約束最自然的是使用 ?0“范數”。但 ?0“范數”不連續，難以優化求解。因此常采用 ?1 范數來近似。

為什么 ?1 正則化比 ?2 正則化更易于獲得稀疏解？假設機器學習算法中的概率方法，則。我們繪制出平方損失項、?1 范數和 ?2 范數的等值線 (取值相同的點的連線)，如圖 1 所示。LASSO 的解要在平方損失項和正則化項之間折中，即出現在圖中平方誤差項等值線和正則化項等值線的相交處。從圖中可以看出，采用 ?1 正則化時交點常出現在坐標軸上 (w₂ = 0), 而采用 ?2 正則化時交點常出現在某個象限中 (w₁，w₂ 均不為 0)。

機器學習算法中的概率方法

Figure 1: ?1 正則化 (紅色) 比 ?2 正則化 (黑色) 更易于獲得稀疏解。本圖源于 [17]。

考慮一般的帶有 ?1 正則化的優化目標

機器學習算法中的概率方法

若 ?(θ) 滿足 L-Lipschitz 條件，即

機器學習算法中的概率方法

優化通常使用近端梯度下降 (proximal gradient descent, PGD) [1]。PGD 也是一種貪心地迭代式地最小化策略，能快速地求解基于 ?1 范數最小化的方法。

定理 9. 假設當前參數是機器學習算法中的概率方法，PGD 的更新準則是

機器學習算法中的概率方法

其中

機器學習算法中的概率方法

Proof. 在機器學習算法中的概率方法附近將 ?(θ) 進行二階泰勒展開近似

機器學習算法中的概率方法

由于 θ 各維互不影響 (不存在交叉項)，因此可以獨立求解各維。

在 LASSO 的基礎上進一步發展出考慮特征分組結構的 Group LASSO [14] 、考慮特征序結構的 Fused LASSO [11] 等變體。由于凸性不嚴格，LASSO 類方法可能產生多個解，該問題通過彈性網(elastic net)得以解決 [16] .

2.4 存在異常點數據的線性回歸

一旦數據中存在異常點 (outlier)，由于平方損失計算的是樣本點到超平面距離的平方，遠離超平面的點會對回歸結果產生更大的影響，如圖 2 所示。平方損失對應于假設噪聲服從高斯分布機器學習算法中的概率方法，一種應對異常點的方法是取代高斯分布為其他更加重尾 (heavy tail) 的分布，使其對異常點的容忍能力更強，例如使用拉普拉斯分布，如圖 3 所示。

機器學習算法中的概率方法

Figure 2：存在異常點 (圖下方的三個點) 時普通線性回歸 (紅色) 和穩健線性回歸 (藍色)。本圖源于 [7]。

機器學習算法中的概率方法

Figure 3: 高斯分布 N (0,1) (紅色) 和拉普拉斯分布Lap(0,1) (藍色)。本圖源于：https://www.epixanalytics.com/modelassist/AtRisk/images/15/image632.gif

定義 2 (拉普拉斯分布 (Laplace distribution) Lap(μ,b))，又稱為雙邊指數分布 (double sided exponential distribution)，具有如下的概率密度函數

機器學習算法中的概率方法

該分布均值為 μ，方差為機器學習算法中的概率方法

定理 10. 假設參數服從高斯先驗，

機器學習算法中的概率方法

對參數 θ 進行最大后驗估計等價于最小化如下損失函數

機器學習算法中的概率方法

Proof

機器學習算法中的概率方法

由于絕對值函數不光滑，不便基于梯度下降對公式 33 進行優化。通過分離變量技巧，可將其轉化為二次規劃 (quadratic programming) 問題，隨后調用現有的軟件包進行求解。我們在下一章形式化 SVR 時還會再使用這個技巧。

定理 11. 最小化公式 33 等價于如下二次規劃問題，其包含 d + 1 + 2m 個變量，3m 個約束：

機器學習算法中的概率方法

此外，為了結合高斯分布 (對應平凡損失) 容易優化和拉普拉斯分布 (對應 ?1 損失) 可以應對異常值的優點，Huber 損失[5]在誤差接近 0 時為平方損失，在誤差比較大時接近 ?1 損失，如圖 4 所示。

機器學習算法中的概率方法

Huber 損失處處可微，使用基于梯度的方法對 Huber 損失進行優化會比使用拉普拉斯分布更快。

機器學習算法中的概率方法

Figure 4: ?2 損失 (紅色)、?1 損失 (藍色) 和 Huber 損失 (綠色)。本圖源于 [7]。

2.5 廣義線性模型

線性回歸利用屬性的線性組合機器學習算法中的概率方法進行預測。除了直接利用逼近 y 外，還可以使模型的預測值逼近 y 的衍生物。考慮單調可微函數 g，令

機器學習算法中的概率方法

這樣得到的模型稱為廣義線性模型 (generalized linear model)，其中函數 g 被稱為聯系函數 (link function)。本文介紹的線性回歸、對數幾率回歸和 Softmax 回歸都屬于廣義線性模型，如表 2 所示。

機器學習算法中的概率方法

廣義線性模型的優點? (1). 形式簡單、易于建模。(2). 很好的可解釋性。機器學習算法中的概率方法直觀表達了各屬性在預測中的重要性。

如何利用廣義線性模型解決非線性問題? (1). 引入層級結構。例如深度學習是對樣本 x 進行逐層加工，將初始的低層表示轉化為高層特征表示后使用線性分類器。(2). 高維映射。例如核方法將 x 映射到一個高維空間 ?(x) 后使用線性分類器。

3 對數幾率回歸

3.1 建模流程

對數幾率回歸 (logistic regression) 應對二分類問題。其建模方法包括如下三步 (參見第 1.1 節)。

(1). 對 p(y | x, θ) 進行概率假設。

對二分類任務，標記機器學習算法中的概率方法，而產生的是實數值，于是，我們需要找到一個單調可微函數 g 將轉化為。最理想的是用單位階躍函數

機器學習算法中的概率方法

當機器學習算法中的概率方法大于 0 時輸出 1，小于 0 時輸出 0。但是，單位階躍函數不連續不可微，無法利用梯度下降方法進行優化。因此，我們希望找到一個能在一定程度上近似單位階躍函數并單調可微的替代函數 (surrogate function)。

機器學習算法中的概率方法

Figure 5: 單位階躍函數 (紅色) 與對數幾率函數 (黑色)。本圖源于 [17]。

如圖 5 所示，對數幾率函數 (sigmoid function) 正是這樣一個常用的替代函數

機器學習算法中的概率方法

我們將其視為后驗概率估計，即

機器學習算法中的概率方法

那么

機器學習算法中的概率方法

兩者可以合并寫作

機器學習算法中的概率方法

也就是說，y | x,θ 服從伯努利分布 Ber(sigm 機器學習算法中的概率方法 )。

(2). 對參數 θ 進行最大后驗估計。

定理 12. 假設參數 θ 服從高斯先驗，對參數 θ 進行最大后驗估計等價于最小化如下損失函數

機器學習算法中的概率方法

其中

機器學習算法中的概率方法

稱為對數幾率損失 (logistic loss)。

Proof

機器學習算法中的概率方法

注意到

機器學習算法中的概率方法

因此

機器學習算法中的概率方法

(3). 對損失函數 L(θ) 進行梯度下降優化。

3.2 與廣義線性模型的關系

對數幾率回歸的假設函數機器學習算法中的概率方法等價于，其中被稱為幾率 (odds)，反映 x 作為正例的相對可能性。被稱為對數幾率 (log odds, logit)，公式 50 實際上在用線性回歸模型的預測結果逼近真實標記的對數幾率，這是對數幾率回歸名稱的由來。

對數幾率回歸的優點? (1). 直接對分類的可能性進行建模 (假設 p(y | x, θ) 服從伯努利分布)，無需事先假設樣本 x 的分布，這樣避免了假設分布不準確所帶來的問題。(2). 不僅能預測出類別，還可以得到近似概率預測，對許多需要概率輔助決策的任務很有用。(3). 對數幾率的目標函數是凸函數，有很好的數學性質。

引理 13. 對數幾率損失函數是凸函數。

Proof. 在機器學習算法中的概率方法的基礎上，進一步可求得是一個半正定矩陣。

3.3 的對數幾率回歸

為了概率假設方便，我們令二分類問題的標記機器學習算法中的概率方法。有時，我們需要處理形式的分類問題。對數幾率損失函數需要進行相應的改動。

(1). 對 p(y | x, θ) 進行概率假設。

我們假設

機器學習算法中的概率方法

那么

機器學習算法中的概率方法

兩者可以合并寫作

機器學習算法中的概率方法

(2). 對參數 θ 進行最大后驗估計。

定理 14. 假設參數 θ 服從高斯先驗，對參數 θ 進行最大后驗估計等價于最小化如下損失函數

機器學習算法中的概率方法

其中

機器學習算法中的概率方法

稱為對數幾率損失 (logistic loss)。

Proof

機器學習算法中的概率方法

(3). 對損失函數 L(θ) 進行梯度下降優化。

機器學習算法中的概率方法

4 Softmax 回歸

4.1 建模流程

Softmax 回歸應對多分類問題，它是對數幾率回歸向多分類問題的推廣。其建模方法包括如下三步 (參見
第 1.1 節)。

(1). 對 p(y | x, θ) 進行概率假設。

機器學習算法中的概率方法

對數幾率回歸假設 p(y | x, θ) 服從伯努利分布，Softmax 回歸假設 p(y | x, θ) 服從如下分布

機器學習算法中的概率方法

令

機器學習算法中的概率方法

假設函數可以寫成矩陣的形式

機器學習算法中的概率方法

(2). 對參數 θ 進行最大后驗估計。

定理 15. 假設參數 θ 服從高斯先驗，對參數 θ 進行最大后驗估計等價于最小化如下損失函數

機器學習算法中的概率方法

其中

機器學習算法中的概率方法

稱為交叉熵損失 (cross-entropy loss)。

Proof

機器學習算法中的概率方法

(3). 對損失函數 L(θ) 進行梯度下降優化。

損失函數對應于類別 k 的參數機器學習算法中的概率方法的導數是

機器學習算法中的概率方法

寫成矩陣的形式是

機器學習算法中的概率方法

其中機器學習算法中的概率方法的第 k 個元素是 1，其余元素均為 0。對比公式 20 、49 和 67 ，損失函數的梯度有相同
的數學形式

機器學習算法中的概率方法

區別在于假設函數機器學習算法中的概率方法的形式不同。事實上，所有的廣義線性模型都有類似于公式 68 的更新準則。

4.2 交叉熵

定義由訓練集觀察得到的分布，稱為經驗分布 (empirical distribution)。經驗分布機器學習算法中的概率方法對應于第 i 個樣例，定義。另一方面，是由模型估計出的概率。

定理 16. 交叉熵損失旨在最小化經驗分布機器學習算法中的概率方法和學得分布之間的交叉熵。這等價于最小化和之間的 KL 散度，迫使估計的分布近似目標分布。

Proof

機器學習算法中的概率方法

5 樸素貝葉斯分類器

樸素貝葉斯分類器 (naive Bayes classifer) 也是一種概率方法，但它是一種生成式模型。在本節，我們首先回顧生成式模型，之后介紹樸素貝葉斯分類器的建模流程。

5.1 生成式模型

判別式模型和生成式模型各是什么? 判別式模型(discriminant model) 直接對 p(y | x) 進行建模，生成式模型 (generative model) 先對聯合分布 p(x, y) = p(x | y)p(y) 進行建模，然后再得到

機器學習算法中的概率方法

其中，p(y) 是類先驗 (prior) 概率，表達了樣本空間中各類樣本所占的比例。p(x | y) 稱為似然 (likelihood)。p(x) 是用于歸一化的證據 (evidence)。由于其和類標記無關，該項不影響 p(y | x) 的估計

機器學習算法中的概率方法

如何對類先驗概率和似然進行估計? 根據大數定律，當訓練集包含充足的獨立同分布樣本時，p(y) 可通過各類樣本出現的頻率來進行估計

機器學習算法中的概率方法

而對似然 p(x | y)，由于其涉及 x 所有屬性的聯合概率，如果基于有限訓練樣本直接估計聯合概率，(1). 在計算上將會遭遇組合爆炸問題。(2). 在數據上將會遭遇樣本稀疏問題，很多樣本取值在訓練集中根本沒有出現，而“未被觀測到”與“出現概率為零”通常是不同的。直接按樣本出現的頻率來估計會有嚴重的困難，屬性數越多，困難越嚴重。

判別式模型和生成式模型的優缺點? 優缺點對比如表 3 所示。

機器學習算法中的概率方法

5.2 建模流程

(1). 對 p(x | y, θ) 進行概率假設。

生成式模型的主要困難在于, 類條件概率 p(x | y)是所有屬性的聯合概率，難以從有限的訓練樣本直接估計而得。為避開這個障礙，樸素貝葉斯分類器采用了屬性條件獨立性假設：對已知類別，假設所有屬性相互獨立。也就是說，假設每個屬性獨立地對分類結果發生影響

機器學習算法中的概率方法

此外，對連續屬性，進一步假設

機器學習算法中的概率方法

因此，樸素貝葉斯分類器的假設函數是

機器學習算法中的概率方法

(2). 對參數 θ 進行最大后驗估計。參數 θ 包括了第 c 類樣本在第 j 個屬性上的高斯分布的均值機器學習算法中的概率方法和
方差。

定理 17. 假設參數 θ 服從不提供信息的先驗，對參數 θ 進行最大后驗估計的結果是

機器學習算法中的概率方法

Proof. 代入公式 76

機器學習算法中的概率方法

5.3 離散屬性的參數估計

樸素貝葉斯分類器可以很容易地處理離散屬性。機器學習算法中的概率方法可估計為

機器學習算法中的概率方法

然而，若某個屬性值在訓練集中沒有與某個類同時出現過，則根據公式 82 估計得到 0。代入公式 75 得到 -1。因此，無論該樣本的其他屬性是什么，分類結果都不會是 y = c，這顯然不太合理。

為了避免其他屬性攜帶的信息被訓練集中未出現的屬性值“抹去”，在估計概率值時通常要進行平滑(smoothing)，常用拉普拉斯修正 (Laplacian correction)。具體的說，令 K 表示訓練集 D 中可能的類別數，n_j 表示第 j 個屬性可能的取值數，則概率估計修正為

機器學習算法中的概率方法

拉普拉斯修正實際上假設了屬性值與類別均勻分布，這是在樸素貝葉斯學習中額外引入的關于數據的先驗。在訓練集變大時，修正過程所引入的先驗的影響也會逐漸變得可忽略，使得估值漸趨向于實際概率值。

在現實任務中樸素貝葉斯有多種實現方式。例如，若任務對預測速度要求較高，則對給定訓練集，可將樸素貝葉斯分類器涉及的所有概率估值事先計算好存儲起來，這樣在進行預測時只需查表即可進行判別。若任務數據更替頻繁，則可采用懶惰學習方式，先不進行任何訓練，待收到預測請求時再根據當前數據集進行概率估值。若數據不斷增加，則可在現有估值基礎上，僅對新增樣本的屬性值所涉及的概率估值進行計數修正即可實現增量學習。

定義 3 (懶惰學習 (lazy learning))。這類學習技術在訓練階段僅僅是把樣本保存起來，訓練時間開銷是 0，待收到測試樣本后再進行處理。相應的，那些在訓練階段就對樣本進行學習處理的方法稱為急切學習(eager learning)。

定義 4 (增量學習 (incremental learning))。在學得模型后，再接收到訓練樣例時，僅需根據新樣例對模型進行更新，不必重新訓練整個模型，并且先前學得的有效信息不會被“沖掉”。

5.4 樸素貝葉斯分類器的推廣

樸素貝葉斯分類器采用了屬性條件獨立性假設，但在現實任務中這個假設往往很難成立。于是，人們嘗試對屬性條件獨立性假設進行一定程度的放松，適當考慮一部分屬性間的相互依賴關系，這樣既不需要進行完全聯合概率計算，又不至于徹底忽略了比較強的屬性依賴關系，由此產生一類半樸素貝葉斯分類器 (semi-naive Bayes classifers) 的學習方法。

獨依賴估計 (one-dependent estimator, ODE) 是最常用的一種策略，其假設每個屬性在類別之外最多依賴于一個其他屬性 (稱為父屬性)。問題的關鍵在于如何確定每個屬性的父屬性。SPODE (super-parent ODE) 假設所有屬性都依賴于同一個屬性，稱為超父 (superparent)。TAN (tree augmented naive Bayes) [4] 以屬性節點構建完全圖，任意兩結點之間邊的權重設為這兩個屬性之間的條件互信息機器學習算法中的概率方法。之后構建此圖的最大帶權生成樹，挑選根變量，將邊置為有向，以將屬性間依賴關系約簡為樹形結構。最后加入類別結點 y，增加從 y 到每個屬性的有向邊。TAN 通過條件互信息刻畫兩屬性的條件相關性，最終保留了強相關屬性之間的依賴性。AODE (averaged ODE) [13] 嘗試將每個屬性作為超父來構建 SPODE，之后將那些具有足夠訓練數據支撐的 SPODE 集成作為最終結果。AODE 的訓練過程也是“計數”，因此具有樸素貝葉斯分類器無需模型選擇、可預計算節省預測時間、也能懶惰學習、并且易于實現增量學習。

能否通過考慮屬性間高階依賴進一步提升泛化性能? 相比 ODE, kDE 考慮最多 k 個父屬性。隨著依賴的屬性個數 k 的增加，準確進行概率估計所需的訓練樣本數量將以指數級增加。因此，若訓練數據非常充分，泛化性能有可能提升。但在有限樣本條件下，則又陷入高階聯合概率的泥沼。

更進一步，貝葉斯網 (Bayesian network)，也稱為信念網 (belief network)，能表示任意屬性間的依賴性。貝葉斯網是一種概率圖模型，借助有向無環圖刻畫屬性間的依賴關系。

事實上，雖然樸素貝葉斯的屬性條件獨立假設在現實應用中往往很難成立，但在很多情形下都能獲得相當好的性能 [2, 8]。一種解釋是對分類任務來說，只需各類別的條件概率排序正確，無須精準概率值即可導致正確分類結果 [2]。另一種解釋是，若屬性間依賴對所有類別影響相同，或依賴關系能相互抵消，則屬性條件獨立性假設在降低計算開銷的同時不會對性能產生負面影響 [15]。樸素貝葉斯分類器在信息檢索領域尤為常用 [6]。

6 快問快答

隨機梯度下降和標準梯度下降的優缺點各是什么?

? 參數更新速度。標準梯度下降需要遍歷整個訓練集才能計算出梯度，更新較慢。隨機梯度下降只需要一個訓練樣例即可計算出梯度，更新較快。

? 冗余計算。當訓練集樣本存在冗余時，隨機梯度下降能避免在相似樣例上計算梯度的冗余。

? 梯度中的隨機因素/噪聲。標準梯度下降計算得到的梯度沒有隨機因素，一旦陷入局部極小將無法跳出。隨機梯度下降計算得到的梯度有隨機因素，有機會跳出局部極小繼續優化。

實際應用時，常采用隨機梯度下降和標準梯度下降的折中，即使用一部分樣例進行小批量梯度下降。此外，相比隨機梯度下降，小批量梯度下降還可以更好利用矩陣的向量化計算的優勢。

梯度下降和牛頓法的優缺點各是什么?

? 導數階數。梯度下降只需要計算一階導數，而牛頓法需要計算二階導數。一階導數提供了方向信息(下降最快的方向)，二階導數還提供了函數的形狀信息。

? 計算和存儲開銷。牛頓法在參數更新時需要計算 Hessian 矩陣的逆，計算和存儲開銷比梯度下降更高。

? 學習率。梯度下降對學習率很敏感，而標準的牛頓法不需要設置學習率。

? 收斂速度。牛頓法的收斂速度比梯度下降更快。

? 牛頓法不適合小批量或隨機樣本。

實際應用時，有許多擬牛頓法旨在以較低的計算和存儲開銷近似 Hessian 矩陣。

線性回歸的損失函數及梯度推導。

答案見上文。

為什么要使用正則化，?1 和 ?2 正則化各自對應什么分布，各有什么作用?

答案見上文。

對數幾率回歸的損失函數及梯度推導。

答案見上文。

線性分類器如何擴展為非線性分類器?

答案見上文。

判別式模型和生成式模型各是什么，各自優缺點是什么，常見算法中哪些是判別式模型，哪些是生成式模型?

答案見上文。

貝葉斯定理各項的含義?

答案見上文。

樸素貝葉斯為什么叫“樸素”貝葉斯?

為了避開從有限的訓練樣本直接估計 p(x | y) 的障礙，樸素貝葉斯做出了屬性條件獨立假設，該假設在現實應用中往往很難成立。

References

[1] P. L. Combettes and V. R. Wajs. Signal recovery by proximal forward-backward splitting. Multiscale Modeling & Simulation, 4(4):1168–1200, 2005. 5

[2] P. M. Domingos and M. J. Pazzani. On the optimality of the simple bayesian classifer under zero-one loss. Machine Learning, 29(2-3):103–130, 1997. 12

[3] B. Efron. Bayesians, frequentists, and scientists. Journal of the American Statistical Association, 100(469):1–5, 2005. 1

[4] N. Friedman, D. Geiger, and M. Goldszmidt. Bayesian network classifers. Machine Learning, 29(2-3):131–163,1997. 12

[5] P. J. Huber. Robust estimation of a location parameter. Annals of Statistics, 53(1):492–518, 1964. 6

[6] D. D. Lewis. Naive (bayes) at forty: The independence assumption in information retrieval. In Proceedings of the 10th European Conference on Machine Learning(ECML), pages 4–15, 1998. 13

[7] K. P. Murphy. Machine Learning: A Probabilistic Perspective. MIT Press, 2012. 5, 6

[8] A. Y. Ng and M. I. Jordan. On discriminative vs. generative classifers: A comparison of logistic regression and naive bayes. In Advances in Neural Information Processing Systems 14 (NIPS), pages 841–848, 2001.12

[9] F. J. Samaniegos. A Comparison of the Bayesian and Frequentist Approaches to Estimation. Springer Science & Business Media, 2010. 1

[10] R. Tibshirani. Regression shrinkage and selection via the LASSO. Journal of the Royal Statistical Society. Series B (Methodological), pages 267–288, 1996. 4

[11] R. Tibshirani, M. Saunders, S. Rosset, J. Zhu, and K. Knight. Sparsity and smoothness via the fused lasso. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(1):91–108, 2005. 5

[12] A. N. Tikhonov and V. I. Arsenin. Solutions of Ill-posed Problems. Winston, 1977. 4

[13] G. I. Webb, J. R. Boughton, and Z. Wang. Not so naive bayes: Aggregating one-dependence estimators. Machine Learning, 58(1):5–24, 2005. 12

[14] M. Yuan and Y. Lin. Model selection and estimation in regression with grouped variables. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 68(1):49–67, 2006. 5

[15] H. Zhang. The optimality of naive bayes. In Proceedings of the Seventeenth International Florida Artifcial Intelligence Research Society Conference (FLAIRS), pages 562–567, 2004. 13

[16] H. Zou and T. Hastie. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 67(2):301–320, 2005. 5

[17] 周志華. 機器學習. 清華大學出版社, 2016. 5, 7, 12

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

18人收藏

AI科技評論

編輯

發私信

當月熱門文章