針對(duì)Quora上的一個(gè)老問(wèn)題:不同分類(lèi)算法的優(yōu)勢(shì)是什么?Netflix公司工程總監(jiān)Xavier Amatriain近日給出新的解答,他根據(jù)奧卡姆剃刀原理依次推薦了邏輯回歸、SVM、決策樹(shù)集成和深度學(xué)習(xí),并談了他的不同認(rèn)識(shí)。他并不推薦深度學(xué)習(xí)為通用的方法,這也側(cè)面呼應(yīng)了我們之前討論的問(wèn)題:深度學(xué)習(xí)能否取代其他機(jī)器學(xué)習(xí)算法。
不同分類(lèi)算法的優(yōu)勢(shì)是什么?例如有大量的訓(xùn)練數(shù)據(jù)集,上萬(wàn)的實(shí)例,超過(guò)10萬(wàn)的特征,我們選擇哪種分類(lèi)算法最好?Netflix公司工程總監(jiān)Xavier Amatriain認(rèn)為,應(yīng)當(dāng)根據(jù)奧卡姆剃刀原理(Occam’s Razor)來(lái)選擇算法,建議先考慮邏輯回歸。
- 選擇一個(gè)合理的算法可以從很多方面來(lái)考察,包括:
- 訓(xùn)練實(shí)例的數(shù)量?
- 特征空間的維度?
- 是否希望該問(wèn)題線性可分?
- 特征是否是獨(dú)立的?
- 是否預(yù)期特征能夠線性擴(kuò)展?
- 過(guò)度擬合是否會(huì)成為一個(gè)問(wèn)題?
- 系統(tǒng)在速度/性能/內(nèi)存使用等方面的要求如何?
邏輯回歸
作為一般的經(jīng)驗(yàn)法則,我建議先考慮邏輯回歸(LR,Logistic Regression)。邏輯回歸是一個(gè)漂亮乖巧的分類(lèi)算法,可以訓(xùn)練你希望的特征大致線性和問(wèn)題線性可分。你可以很容易地做一些特征引擎把大部分的非線性特征轉(zhuǎn)換為線性。邏輯回歸對(duì)噪聲也相當(dāng)強(qiáng)勁,能避免過(guò)度擬合,甚至使用L2或L1正則化做特征選擇。邏輯回歸也可以用在大數(shù)據(jù)場(chǎng)景,因?yàn)樗窍喈?dāng)有效的,并且可以分布使用,例如ADMM。 邏輯回歸的最后一個(gè)優(yōu)點(diǎn)是,輸出可以被解釋為概率。這是一個(gè)好的附加作用,例如,你可以使用它排名而不是分類(lèi)。
即使在你不希望邏輯回歸100%地工作,你也可以幫自己一個(gè)忙,在使用“票友”辦法之前,運(yùn)行一個(gè)簡(jiǎn)單的L2正則化邏輯回歸作為基線。
好了,現(xiàn)在你已經(jīng)設(shè)置邏輯回歸基線,下一步你應(yīng)該做的,我基本上會(huì)推薦兩個(gè)可能的方向:支持向量機(jī)(SVM)或者決策樹(shù)集成。如果我不知道你的具體問(wèn)題,我肯定會(huì)選擇后者,但我將開(kāi)始描述為什么SVM可能是一個(gè)值得考慮的方法。
支持向量機(jī)
支持向量機(jī)使用一個(gè)與LR不同的損失函數(shù)(Hinge)。它們也有不同的解釋?zhuān)╩aximum-margin)。然而,在實(shí)踐中,用線性核函數(shù)的SVM和邏輯回歸是沒(méi)有很大的不同的(如果你有興趣,你可以觀察Andrew Ng在他的Coursera機(jī)器學(xué)習(xí)課程如何從邏輯回歸中驅(qū)動(dòng)SVM)。用SVM代替邏輯回歸的一個(gè)主要原因可能是因?yàn)槟愕膯?wèn)題線性不可分。在這種情況下,你將不得不使用有非線性內(nèi)核的SVM(如RBF)。事實(shí)上,邏輯回歸也可以伴隨不同的內(nèi)核使用,但出于實(shí)際原因你更可能選擇SVM。另一個(gè)使用SVM的相關(guān)理由可能是高維空間。例如,SVM已經(jīng)被報(bào)道在工作文本分類(lèi)方面做得更出色。
不幸的是,SVM的主要缺點(diǎn)是,它們的訓(xùn)練低效到痛苦。所以,對(duì)于有大量訓(xùn)練樣本的任何問(wèn)題,我都不會(huì)推薦SVM。更進(jìn)一步地說(shuō),我不會(huì)為大多數(shù)“工業(yè)規(guī)?!钡膽?yīng)用程序推薦SVM。任何超出玩具/實(shí)驗(yàn)室的問(wèn)題可能會(huì)使用其他的算法來(lái)更好地解決。
決策樹(shù)集成
第三個(gè)算法家族:決策樹(shù)集成(Tree Ensembles)。這基本上涵蓋了兩個(gè)不同的算法:隨機(jī)森林(RF)和梯度提升決策樹(shù)(GBDT)。它們之間的差異隨后再談,現(xiàn)在先把它們當(dāng)做一個(gè)整體和邏輯回歸比較。
決策樹(shù)集成有超過(guò)LR的不同優(yōu)勢(shì)。一個(gè)主要優(yōu)勢(shì)是,它們并不指望線性特征,甚至是交互線性特性。在LR里我沒(méi)有提到的是,它幾乎不能處理分類(lèi)(二進(jìn)制)特性。而決策樹(shù)集成因?yàn)閮H僅是一堆決策樹(shù)的結(jié)合,可以非常好地處理這個(gè)問(wèn)題。另一主要優(yōu)點(diǎn)是,因?yàn)樗鼈儤?gòu)造了(使用bagging或boosting)的算法,能很好地處理高維空間以及大量的訓(xùn)練實(shí)例。
至于RF和GBDT之間的差別,可以簡(jiǎn)單理解為GBDT的性能通常會(huì)更好,但它們更難保證正確。更具體而言,GBDT有更多的超參數(shù)需要調(diào)整,并且也更容易出現(xiàn)過(guò)度擬合。RF幾乎可以“開(kāi)箱即用”,這是它們非常受歡迎的一個(gè)原因。
深度學(xué)習(xí)
最后但并非最不重要,沒(méi)有深度學(xué)習(xí)的次要參考,這個(gè)答案將是不完整的。我絕對(duì)不會(huì)推薦這種方法作為通用的分類(lèi)技術(shù)。但是,你可能會(huì)聽(tīng)說(shuō)這些方法在某些情況下(如圖像分類(lèi))表現(xiàn)如何。如果你已經(jīng)通過(guò)了前面的步驟并且感覺(jué)你的解決方案還有優(yōu)化的空間,你可能?chē)L試使用深度學(xué)習(xí)方法。事實(shí)是,如果你使用一個(gè)開(kāi)源工具(如Theano)實(shí)現(xiàn),你會(huì)知道如何使這些方法在你的數(shù)據(jù)集中非??斓貓?zhí)行。
總結(jié)
綜上所述,先用如邏輯回歸一樣簡(jiǎn)單的方法設(shè)定一個(gè)基準(zhǔn),如果你需要,再使問(wèn)題變得更加復(fù)雜。這一點(diǎn)上,決策樹(shù)集成可能正是要走的正確道路,特別是隨機(jī)森林,它們很容易調(diào)整。如果你覺(jué)得還有改進(jìn)的余地,嘗試GBDT,或者更炫一些,選擇深度學(xué)習(xí)。
你還可以看看Kaggle比賽。如果你搜索關(guān)鍵字“分類(lèi)”,選擇那些已經(jīng)完成的,你能找到一些類(lèi)似的東西,這樣你可能會(huì)知道選擇一個(gè)什么樣的方法來(lái)贏得比賽。在這一點(diǎn)上,你可能會(huì)意識(shí)到,使用集成方法總?cè)菀装咽虑樽龊?。?dāng)然集成的唯一問(wèn)題,是需要保持所有獨(dú)立的方法并行地工作。這可能是你的最后一步,花哨的一步。
編輯點(diǎn)評(píng):Xavier Amatriain不推薦深度學(xué)習(xí)為通用算法的理由,并不能說(shuō)是因?yàn)樯疃葘W(xué)習(xí)不好,而是因?yàn)樯疃葘W(xué)習(xí)會(huì)增加復(fù)雜性及成本,卻無(wú)法保證在所有的場(chǎng)景表現(xiàn)出比邏輯回歸、SVM及決策樹(shù)集成更優(yōu)的結(jié)果。事實(shí)上,Xavier Amatriain的Netflix團(tuán)隊(duì)早已開(kāi)始研究人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù),希望借助AWS云服務(wù)和GPU加速的分布式神經(jīng)網(wǎng)絡(luò),分析網(wǎng)民最?lèi)?ài)看的電影電視劇,實(shí)現(xiàn)節(jié)目的個(gè)性化推薦。
Netflix推薦系統(tǒng)架構(gòu)(圖片來(lái)自Xavier Amatrain參與撰寫(xiě)的Netflix官方博客)
此后,Xavier Amatriain還分享了Netflix機(jī)器學(xué)習(xí)實(shí)踐的十大經(jīng)驗(yàn)教訓(xùn),大致包括:
- 更多的數(shù)據(jù)需要與更好的模型之匹配
- 你可能不需要所有的大數(shù)據(jù)
- 更復(fù)雜的模型未必意味著更好的結(jié)果,可能是你的樣本集太簡(jiǎn)單
- 要充分考慮你的訓(xùn)練數(shù)據(jù)
- 學(xué)會(huì)處理偏差
- UI是聯(lián)系算法和最重要的用戶之間唯一通道
- 正確的演進(jìn)方式比數(shù)據(jù)和模型更重要
- 分布式算法重要,知道在哪個(gè)層級(jí)使用它更重要
- 選擇合適的度量自動(dòng)超參數(shù)優(yōu)化
- 并非所有的事都能離線完成,近線處理也是一種選擇
原文出處: Quora???譯文出處:ITEYE
End.
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- Meta反擊:蘋(píng)果以隱私為借口,扼殺競(jìng)爭(zhēng),Meta將如何應(yīng)對(duì)?
- 奇瑞尹同躍:不是華為更厲害,而是華為合作態(tài)度讓人佩服
- 華為新品:明年量產(chǎn)快充自動(dòng)充電機(jī)器人,適配超充聯(lián)盟所有車(chē)型,引領(lǐng)未來(lái)出行新風(fēng)潮
- 蘋(píng)果VR/MR頭顯市場(chǎng)表現(xiàn)低于預(yù)期,蘋(píng)果成第三玩家,行業(yè)地位下滑?
- 極越公關(guān)負(fù)責(zé)人疑遭開(kāi)除,當(dāng)事人回應(yīng)內(nèi)情:一場(chǎng)誤會(huì)?
- 極越公關(guān)負(fù)責(zé)人回應(yīng)被開(kāi)除:未收到通知,夏一平失聯(lián),公司疑云待解
- 珠海迎來(lái)巨額投資,MLED新紀(jì)元開(kāi)啟:京東方設(shè)備正式入駐
- 三星顯示剝離LCD資產(chǎn):告別過(guò)去,擁抱未來(lái),第8代生產(chǎn)設(shè)備出售引關(guān)注
- 亞馬遜罷工風(fēng)暴:全球巨頭遭遇供應(yīng)鏈危機(jī),倉(cāng)庫(kù)停擺震動(dòng)電商界
- 特斯拉芯片實(shí)力引關(guān)注:AMD芯片霸榜,特斯拉在售車(chē)型性能再創(chuàng)新高
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。