結(jié)合Logistic回歸構(gòu)建最大熵馬爾科夫模型

大數(shù)據(jù)

判定模型 vs 生成模型

上一篇博文中，我討論了樸素貝葉斯模型，以及它與隱馬爾可夫模型之間的聯(lián)系。它們都屬于生成模型，但本文要講的 Logistic 回歸模型是一個判定模型，全文以討論這種差異開始。

通常，機器學(xué)習(xí)分類器通過從所有可能的 y_i 中選擇有最大的 P(y | x) 的那個，來決定將哪個輸出標(biāo)簽 y 分配給輸入 x。

樸素貝葉斯分類器通過應(yīng)用貝葉斯定理間接估計 p(y | x)，然后計算類的條件分布/概率 P(x | y) 和先驗概率 P(y)。

大數(shù)據(jù)

這種間接性使得樸素貝葉斯成為一種生成模型，一種通過訓(xùn)練從類 y 生成數(shù)據(jù) x 的模型。p(x | y) 的意義是給定一個類 y，然后預(yù)測對應(yīng)的輸入 x 中包含哪些特征。相比之下，判定模型通過直接判定類別 y 的不同可能值來計算 p(y | x)，而不是計算概率。Logistic 回歸分類器正是這種分類器。

大數(shù)據(jù)

Logistic 回歸

Logistic 回歸是用于分類的一種監(jiān)督學(xué)習(xí)算法，它的本質(zhì)是線性回歸。

當(dāng)用于解決 NLP 任務(wù)時，它通過從輸入文本中提取特征并線性組合它們來估計 p(y | x)，即，將每個特征乘以一個權(quán)重，然后將它們相加，然后將指數(shù)函數(shù)應(yīng)用于該線性組合：

大數(shù)據(jù)

其中 f_i 是一個特征，w_i 是與該特征相關(guān)的權(quán)重。對于權(quán)重和特征點積進(jìn)行的 exp（即，指數(shù)函數(shù)）確保所有值都是正值，并且需要除以分母 Z 以得到（所有概率值的總和為 1）有效概率。

提取到的是二值特征，即只取值 0 和 1，通常稱為指標(biāo)函數(shù)。其中每一個特征都是通過輸入 x 和類 y 的函數(shù)來計算的。每個指標(biāo)函數(shù)表示為 f_i(y , x)，對于類 y 的特征 i，給定觀測值 x：

大數(shù)據(jù)

訓(xùn)練

我們想通過訓(xùn)練 logistic 回歸來獲得每一個特征的理想權(quán)重（使訓(xùn)練樣本和屬于的類擬合得最好的權(quán)重）。

Logistic 回歸用條件極大似然估計進(jìn)行訓(xùn)練。這意味著我們將選擇參數(shù) w，使對給定輸入值 x 在訓(xùn)練數(shù)據(jù)中 y 標(biāo)簽的概率最大化：

大數(shù)據(jù)

需要最大化的目標(biāo)函數(shù)是：

大數(shù)據(jù)

通過用前面展示的擴展形式替換，并應(yīng)用對數(shù)除法規(guī)則，得到以下形式：

大數(shù)據(jù)

通常可以運用隨機梯度下降法、L-BFGS 或共軛梯度法來求此函數(shù)的最大值，即找到最優(yōu)權(quán)重。

分類

在分類任務(wù)中，logistic 回歸通過計算給定觀察的屬于每個可能類別的概率，然后選擇產(chǎn)生最大概率的類別。

大數(shù)據(jù)

最大熵馬爾可夫模型

最大熵馬爾可夫模型（Maximum Entropy Markov Model，MEMM）的思想是利用 HMM 框架預(yù)測給定輸入序列的序列標(biāo)簽，同時結(jié)合多項 Logistic 回歸（又名最大熵，其給出了可以從輸入序列中提取特征的類型和數(shù)量上的自由度）。

HMM 基于兩種概率：

P(tag | tag) 狀態(tài)轉(zhuǎn)換，從一個狀態(tài)到另一個狀態(tài)的概率。P(word | tag) 輸出概率，從一個狀態(tài)輸出一個字的概率。

在現(xiàn)實問題中，我們要預(yù)測一個給定詞/輸入的標(biāo)簽/狀態(tài)。但是，由于貝葉斯定理（即生成方法），在 HMM 中不可能進(jìn)行編碼，而模型估計的是產(chǎn)生某個確定單詞的狀態(tài)的概率。

MEMM 因包含豐富的輸入特征而備受推崇：

「除了傳統(tǒng)的單詞識別之外，還有描述輸入的多種重疊特征的表示，例如大寫字母、單詞結(jié)尾、詞類、格式、頁面上的位置以及 WordNet 中的節(jié)點成員等。

也可以用一個判定方法來解決預(yù)測問題：

「傳統(tǒng)的方法通過設(shè)置 HMM 參數(shù)以最大化輸入序列的概率; 然而，在大多數(shù)文本應(yīng)用中，其任務(wù)是根據(jù)輸入序列來預(yù)測狀態(tài)序列。換句話說，傳統(tǒng)方法不恰當(dāng)?shù)厥褂蒙陕?lián)合模型來解決給定輸入的條件問題?！?p> 大數(shù)據(jù)

（左）傳統(tǒng) HMM 的依賴關(guān)系圖。（右）最大熵馬爾可夫模型的依賴關(guān)系圖（選自 A. McCallum et al. 2000）。

在最大熵馬爾可夫模型中，轉(zhuǎn)換函數(shù)和輸入函數(shù)（即上一篇博客的 HMM 矩陣 A 和 B）被單個函數(shù)代替：

大數(shù)據(jù)

給定前一個狀態(tài) s_t-1 和當(dāng)前的輸入值 o_t，得到當(dāng)前狀態(tài)的概率 s_t。下圖展示了計算狀態(tài)/標(biāo)簽/標(biāo)記轉(zhuǎn)換的不同之處。

大數(shù)據(jù)

HMM 和 MEMM 之間狀態(tài)轉(zhuǎn)換估計的對比。（選自「Speech and Language Processing」，Daniel Jurafsky & James H. Martin）

與當(dāng)前輸入僅依賴于當(dāng)前狀態(tài)的 HMM 相比，MEMM 中的當(dāng)前輸入也可以取決于之前的狀態(tài)。HMM 模型對于每個轉(zhuǎn)換和輸入都有確定的概率估計，而 MEMM 給出每個隱藏狀態(tài)的一個概率估計，這是給定前一個標(biāo)記和輸入值情況下的下一個標(biāo)記的概率。

在 MEMM 而不是轉(zhuǎn)換和觀測矩陣中，只有一個轉(zhuǎn)換概率矩陣。該矩陣將訓(xùn)練數(shù)據(jù)中先前狀態(tài) S_t-1 和當(dāng)前輸入 O_t 對的所有組合封裝到當(dāng)前狀態(tài) S_t。

令 N 為獨特狀態(tài)的個數(shù)，M 為獨特單詞的個數(shù)，矩陣的形狀為：

(N?M)?N

特征函數(shù)

MEMM 可以對輸入值的任何有用特征進(jìn)行條件化。在 HMM 中這是不可能的，因為 HMM 是基于概率的，因此需要計算每個輸入特征的概率。使用狀態(tài)-輸入轉(zhuǎn)換函數(shù)，而不是像 HMM 那樣的獨立的轉(zhuǎn)換和輸入函數(shù)，使我們能夠?qū)斎氲亩鄠€非獨立特征進(jìn)行建模。

這是通過多項 logistic 回歸來實現(xiàn)的，給定先前標(biāo)記（即，s’），輸入詞（即，o）和任意其它特征（即，fi(x,y’)）來估計每個局部標(biāo)記的概率：

大數(shù)據(jù)

其中 w_i 是與每個特征 f_i(x,y) 相關(guān)聯(lián)的需要學(xué)習(xí)的權(quán)重，Z 是使矩陣在每行上總和為 1 的歸一化因子。

大數(shù)據(jù)

考慮整個觀測序列的特征函數(shù)。（選自「Speech and Language Processing」，Daniel Jurafsky & James H. Martin）

訓(xùn)練與解碼

最初發(fā)表于 2000 年的 MEMM 論文使用廣義迭代縮放（GIS）算法來擬合多項 logistic 回歸，即根據(jù)訓(xùn)練數(shù)據(jù)找到完美的權(quán)重。該算法在很大程度上被基于梯度的方法（如 L-BFGS）所超越。

使用與 HMM 中相同的 Viterbi 算法進(jìn)行解碼，盡管不是那么適合估計狀態(tài)轉(zhuǎn)換的新方法。

MEMM 的重要結(jié)論

相對于 HMM 的主要優(yōu)勢是使用特征向量，使得轉(zhuǎn)換概率對輸入序列中的任何詞都敏感。每個（狀態(tài)，單詞）對都有一個指數(shù)模型來計算下一個狀態(tài)的條件概率。指數(shù)模型允許 MEMM 支持整個觀測序列與前一狀態(tài)（而不是兩個不同的概率分布）的長距離交互。MEMM 還可以擴展為包含涉及額外過去狀態(tài)（而不僅僅是前一個狀態(tài)）的特征。它也使用 Viterbi 算法（稍作改動）來執(zhí)行解碼。它受到標(biāo)簽偏差問題的影響，我將在下一篇關(guān)于條件隨機場的文章中詳細(xì)介紹。

軟件包

https://github.com/willxie/hmm-vs-memm:一個由 William Xie 負(fù)責(zé)的課程項目，在詞性標(biāo)注方面的任務(wù)上實現(xiàn)且比較了 HMM 與 MEMM。https://github.com/yh1008/MEMM:由 Emily Hua 發(fā)布的名詞短語拆分任務(wù)的實現(xiàn)。https://github.com/recski/HunTag:由 GáborRecski 發(fā)布的序列句子標(biāo)記的實現(xiàn)，并有詳細(xì)文檔。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

結(jié)合Logistic回歸構(gòu)建最大熵馬爾科夫模型

下一篇