經(jīng)濟(jì)學(xué)人的美國(guó)總統(tǒng)選舉統(tǒng)計(jì)預(yù)測(cè)模型在2024年迎來(lái)了第二次應(yīng)用。該模型由哥倫比亞大學(xué)的政治學(xué)家Andrew Gelman領(lǐng)導(dǎo)的團(tuán)隊(duì)開(kāi)發(fā),旨在計(jì)算Joe Biden和Donald Trump在各個(gè)州以及整個(gè)選舉中的勝算。模型的預(yù)測(cè)結(jié)果將在本網(wǎng)站每日更新。以下是對(duì)該預(yù)測(cè)模型工作原理的詳細(xì)方法總結(jié)。
民調(diào)與基本面分析
模型的第一步是預(yù)測(cè)選舉日全國(guó)普選的結(jié)果。我們主要使用兩大信息來(lái)源:全國(guó)民調(diào)和政治學(xué)中稱(chēng)為“基本面”的結(jié)構(gòu)性因素。這些因素影響選民決策。選舉年的前幾個(gè)月,公眾對(duì)選舉關(guān)注較少,競(jìng)選議題尚未明確,選民往往表示猶豫不決或計(jì)劃投票給第三方。這使得上半年民調(diào)對(duì)最終結(jié)果的預(yù)測(cè)力較弱。例如,1988年6月,George H.W. Bush在民調(diào)中落后Michael Dukakis 12個(gè)百分點(diǎn),但最終卻贏了8個(gè)百分點(diǎn)。四年后,Bush在民調(diào)中領(lǐng)先Bill Clinton 10個(gè)百分點(diǎn),但最終輸?shù)袅?個(gè)百分點(diǎn)。
近年來(lái),民調(diào)誤差有所減少,但仍可能顯著。例如,2000年,George W. Bush在普選中曾領(lǐng)先Al Gore 10個(gè)百分點(diǎn),但在競(jìng)選的最后三個(gè)月內(nèi)變成了劣勢(shì)。最終,他通過(guò)選舉人團(tuán)和佛羅里達(dá)州537票的爭(zhēng)議勝利贏得了總統(tǒng)競(jìng)選。而在2016年,Hillary Clinton在6月、8月甚至10月的民調(diào)中都領(lǐng)先Donald Trump約8個(gè)百分點(diǎn),但最終普選僅贏了2個(gè)百分點(diǎn)。
相比之下,基于基本面的預(yù)測(cè)往往相對(duì)穩(wěn)定,能預(yù)示選民在關(guān)注政治并激發(fā)其潛在黨派傾向后可能的改變。最著名的例子之一是Emory University的政治學(xué)家Alan Abramowitz設(shè)計(jì)的“時(shí)機(jī)變革”模型。該模型僅用總統(tǒng)的凈支持率、GDP增長(zhǎng)率以及是否有連任的現(xiàn)任總統(tǒng)這三個(gè)因素預(yù)測(cè)普選(不包括第三方)。歷史上,該模型對(duì)總統(tǒng)黨派贏得普選份額的預(yù)測(cè)誤差與競(jìng)選晚期民調(diào)的誤差相當(dāng)。
規(guī)律化與交叉驗(yàn)證
對(duì)基本面模型的常見(jiàn)批評(píng)是其容易“過(guò)擬合”,即在擬合歷史數(shù)據(jù)時(shí)效果很好,但在預(yù)測(cè)未來(lái)時(shí)效果不佳。為了避免這種風(fēng)險(xiǎn),我們借用了機(jī)器學(xué)習(xí)中的兩項(xiàng)技術(shù):“彈性網(wǎng)規(guī)律化”和“逐一交叉驗(yàn)證”。
彈性網(wǎng)規(guī)律化是一種減少模型復(fù)雜性的方法。一般來(lái)說(shuō),較簡(jiǎn)單的方程——統(tǒng)計(jì)學(xué)家稱(chēng)之為“簡(jiǎn)約的”——比復(fù)雜的方程更能有效預(yù)測(cè)未知數(shù)據(jù)。規(guī)律化使模型不那么復(fù)雜,要么縮小用作預(yù)測(cè)變量的影響,要么完全去除弱變量。
接下來(lái),為確定規(guī)律化程度,我們使用“逐一交叉驗(yàn)證”。該技術(shù)將數(shù)據(jù)集分成多個(gè)部分,用部分?jǐn)?shù)據(jù)訓(xùn)練模型,用其他數(shù)據(jù)測(cè)試其性能。在這種情況下,每個(gè)部分是一個(gè)選舉年。
為了測(cè)試某一規(guī)律化程度的準(zhǔn)確性,我們首先將1948年第一次戰(zhàn)后總統(tǒng)選舉的數(shù)據(jù)隱藏起來(lái),然后用1952年至2016年的選舉數(shù)據(jù)訓(xùn)練基本面模型。簡(jiǎn)化所得方程后,用該模型預(yù)測(cè)1948年的結(jié)果。這個(gè)過(guò)程對(duì)剩下的18次選舉重復(fù)進(jìn)行。
完成這一循環(huán)后,我們得到了每個(gè)選舉年的19個(gè)預(yù)測(cè)結(jié)果。每個(gè)預(yù)測(cè)都使用相同的規(guī)律化程度,僅用其他年份的數(shù)據(jù)生成。記錄預(yù)測(cè)準(zhǔn)確性后,我們重復(fù)這一循環(huán)100次,每次使用不同的規(guī)律化程度。表現(xiàn)最好的規(guī)律化因子勝出。
利用這種方法,我們測(cè)試了潛在預(yù)測(cè)變量組合,并找到了最優(yōu)規(guī)律化程度。結(jié)果顯示,該模型與Abramowitz的方法相似。不同之處在于,我們對(duì)已執(zhí)政兩屆以上的黨派施加了懲罰(符合“時(shí)機(jī)變革”模型的精神),并采用了一系列經(jīng)濟(jì)指標(biāo)的年變化,而不僅僅是第二季度的GDP增長(zhǎng)。
我們的研究發(fā)現(xiàn),這些經(jīng)濟(jì)指標(biāo)對(duì)選民行為的影響僅在現(xiàn)任總統(tǒng)競(jìng)選連任時(shí)顯現(xiàn),這表明任期限制的總統(tǒng)不會(huì)將其經(jīng)濟(jì)遺產(chǎn)傳遞給其黨派的繼任者。此外,由于選民極化程度的增加,搖擺選民數(shù)量減少,這種經(jīng)濟(jì)因素的影響在近年來(lái)有所減弱。
從全國(guó)普選到州選舉
雖然本文重點(diǎn)關(guān)注全國(guó)普選,但正如Gore和Clinton的支持者苦澀地記得的那樣,贏得普選并不意味著能入主白宮。美國(guó)通過(guò)獨(dú)特的選舉人團(tuán)制度選舉總統(tǒng),實(shí)際上是各州而非選民進(jìn)行投票。為了預(yù)測(cè)決定勝負(fù)的各州結(jié)果,我們重復(fù)上述過(guò)程,但加入了一些變化。我們不預(yù)測(cè)絕對(duì)的投票份額,而是預(yù)測(cè)各州的“黨派傾向”,即該州相較于全國(guó)整體更傾向于民主黨還是共和黨,以及在全國(guó)平局的情況下該州的預(yù)期投票結(jié)果。例如,盡管自2004年以來(lái)共和黨未贏得過(guò)內(nèi)華達(dá)州,但在過(guò)去兩次選舉中,內(nèi)華達(dá)州實(shí)際上稍微傾向于共和黨。Biden贏得了該州2.4個(gè)百分點(diǎn)的優(yōu)勢(shì),比他在全國(guó)的勝利優(yōu)勢(shì)4.5個(gè)百分點(diǎn)要小。
為了估算每個(gè)州在每次選舉中的中心傾向,我們使用了該州在前兩次總統(tǒng)選舉中的黨派傾向、總統(tǒng)候選人及其競(jìng)選搭檔的家鄉(xiāng)州、人口密度、最近幾次選舉中全國(guó)選民的黨派支持變動(dòng)比例,以及當(dāng)年的全國(guó)普選結(jié)果。加入全國(guó)普選結(jié)果這一預(yù)測(cè)變量使我們能夠擺脫“統(tǒng)一擺動(dòng)”的假設(shè),即認(rèn)為候選人全國(guó)支持率的變化會(huì)在每個(gè)州以相同的幅度反映,并允許我們對(duì)全國(guó)政治環(huán)境對(duì)各州偏好的影響進(jìn)行更靈活的估計(jì)。我們還對(duì)這些預(yù)測(cè)的不確定性進(jìn)行建模,基于該州搖擺選民比例和中心估計(jì)離50/50的距離(投票結(jié)果一邊倒的州通常更難預(yù)測(cè))。
貝葉斯方法
熟悉類(lèi)似預(yù)測(cè)模型的讀者可能會(huì)驚訝地發(fā)現(xiàn),2024年的競(jìng)選民調(diào)尚未納入我們的模型。這是有意為之。我們的模型遵循托馬斯·貝葉斯(18世紀(jì)牧師)的邏輯結(jié)構(gòu),其思想影響了大量日益增長(zhǎng)的統(tǒng)計(jì)技術(shù)家族。貝葉斯方法分兩個(gè)階段。首先,在進(jìn)行研究之前,研究人員明確表示他們相信什么以及他們對(duì)這種信念的信心。這稱(chēng)為“先驗(yàn)”。接下來(lái),在獲取數(shù)據(jù)后,他們更新先驗(yàn)以反映新信息——如果新信息確認(rèn)先驗(yàn),則增加信心;如果否定先驗(yàn),則通常會(huì)變得更不確定(除非新數(shù)據(jù)非常明確,幾乎沒(méi)有疑問(wèn))。在這個(gè)框架下,上述推導(dǎo)出的各州潛在投票份額分布是先驗(yàn),而在競(jìng)選過(guò)程中逐漸匯入的民調(diào)數(shù)據(jù)是新信息。最終結(jié)果——在貝葉斯術(shù)語(yǔ)中稱(chēng)為“后驗(yàn)”——就是我們的預(yù)測(cè)。
就像我們的先驗(yàn)有不確定性一樣,民調(diào)也存在不確定性。讀者可能熟悉民調(diào)報(bào)告時(shí)提到的“誤差范圍”,通常為幾個(gè)百分點(diǎn)。然而,這個(gè)數(shù)字只考慮了一種可能的誤差來(lái)源:樣本規(guī)模有限可能不反映整體人口特征的風(fēng)險(xiǎn)(稱(chēng)為“抽樣誤差”)。事實(shí)上,參與調(diào)查的人群幾乎從未是理想的隨機(jī)子集,而是與實(shí)際投票的人群存在重要差異,統(tǒng)稱(chēng)為“非抽樣誤差”。
首先,民調(diào)受選民投票率的影響。面向所有成年人的民調(diào)會(huì)包括不具投票資格或未登記選民的意見(jiàn)。限制在登記選民范圍內(nèi)的民調(diào)則將所有受訪(fǎng)者視為有同等投票可能性,而事實(shí)并非如此。而那些試圖篩選出不太可能投票的受訪(fǎng)者,或賦予更可能投票者更多權(quán)重的民調(diào),可能會(huì)出錯(cuò)。盡管沒(méi)有兩個(gè)調(diào)查是完全相同的,但采用類(lèi)似方法預(yù)測(cè)投票率的調(diào)查更可能產(chǎn)生相似大小和方向的誤差。用統(tǒng)計(jì)術(shù)語(yǔ)來(lái)說(shuō),每種不同的投票率預(yù)測(cè)方法都可能產(chǎn)生“偏差”,并污染所有使用相似方法的調(diào)查結(jié)果。
其他非抽樣誤差也是如此。通過(guò)使用電話(huà)采訪(fǎng)的人群可能與自動(dòng)電話(huà)或互聯(lián)網(wǎng)調(diào)查所能接觸到的人群有不同的投票意圖。各個(gè)民調(diào)公司可能在方法選擇上(如權(quán)重方案)做出不同決定,這會(huì)導(dǎo)致對(duì)特定政黨的結(jié)果更有利或不利。
提前判斷這些特性可能引入的偏差的方向或大小是不可能的。然而,隨著競(jìng)選的進(jìn)行,不同方法的民調(diào)機(jī)構(gòu)將在相似時(shí)間內(nèi)對(duì)同一地區(qū)進(jìn)行調(diào)查。通過(guò)比較,例如5月中旬愛(ài)荷華州的所有成年人民調(diào)與可能投票者民調(diào)的結(jié)果,再比較8月初佛羅里達(dá)州的相同類(lèi)型民調(diào),并對(duì)所有可能的時(shí)間和地理組合重復(fù)這一過(guò)程,我們的模型估算這些因素對(duì)調(diào)查結(jié)果的影響,并進(jìn)行調(diào)整。
調(diào)整民調(diào)結(jié)果的最后一步是整合它們提供的信息。搖擺州通常會(huì)定期進(jìn)行民調(diào),而不太競(jìng)爭(zhēng)的州可能很少或根本不被調(diào)查。即使我們?nèi)鄙倌硞€(gè)州的最新民調(diào)數(shù)據(jù),我們也可以根據(jù)其他地方的民調(diào)結(jié)果做出有根據(jù)的猜測(cè)。
最簡(jiǎn)單的信息共享形式是對(duì)全國(guó)趨勢(shì)的調(diào)整。假設(shè)明尼蘇達(dá)州最近一次民調(diào)是在六周前,當(dāng)時(shí)民主黨領(lǐng)先六個(gè)百分點(diǎn),而全國(guó)民調(diào)顯示民主黨領(lǐng)先四個(gè)百分點(diǎn)。現(xiàn)在假設(shè)在這六周內(nèi),共和黨在全國(guó)范圍內(nèi)迅速崛起,領(lǐng)先三個(gè)百分點(diǎn)。很可能明尼蘇達(dá)州的選民也受到了這個(gè)轉(zhuǎn)變的影響。最有可能的情況是,共和黨在明尼蘇達(dá)州也獲得了全國(guó)范圍內(nèi)相同的七個(gè)百分點(diǎn)增幅,因此共和黨實(shí)際上在該州領(lǐng)先約一個(gè)百分點(diǎn)。
我們也可以將這種方法擴(kuò)展到州級(jí)民調(diào)。有些州非常相似,無(wú)論是因?yàn)樗鼈兪青従?,還是因?yàn)樗鼈兊娜丝诮Y(jié)構(gòu)相似,或者兩者兼有——例如明尼蘇達(dá)州和威斯康星州,或阿拉巴馬州和密西西比州——而有些州則大不相同(例如明尼蘇達(dá)州和阿拉巴馬州,或威斯康星州和密西西比州的配對(duì))。兩個(gè)州越相似,一個(gè)州的公眾意見(jiàn)變化就越能預(yù)測(cè)另一個(gè)州的變化。因此,我們的模型允許每個(gè)州的民調(diào)影響其他州的選民偏好估計(jì),影響程度不同。這個(gè)效應(yīng)的強(qiáng)弱由九個(gè)因素決定:一個(gè)州在過(guò)去總統(tǒng)選舉中的投票情況;其種族構(gòu)成和教育水平;所有居民的平均年齡;該州平均每個(gè)居民的居住密度;以及該州白人福音派基督徒的比例。結(jié)果是模型會(huì)將威斯康星州的民調(diào)幾乎視為明尼蘇達(dá)州的民調(diào),并根據(jù)來(lái)自鄰州的數(shù)據(jù)大幅更新對(duì)明尼蘇達(dá)州選民意見(jiàn)的估計(jì)。然而,這種民調(diào)對(duì)阿拉巴馬州投票結(jié)果預(yù)測(cè)的影響則很小。
綜合起來(lái)
在對(duì)民調(diào)報(bào)告結(jié)果進(jìn)行所有這些調(diào)整后,我們準(zhǔn)備使用這些數(shù)據(jù)來(lái)更新先驗(yàn)。我們的方法是對(duì)Drew Linzer(政治科學(xué)家)在2013年首次發(fā)表的技術(shù)進(jìn)行擴(kuò)展。它使用了一種稱(chēng)為馬爾可夫鏈蒙特卡羅(MCMC)的統(tǒng)計(jì)技術(shù),探索模型中每個(gè)參數(shù)的數(shù)千種不同值,并評(píng)估它們對(duì)數(shù)據(jù)模式的解釋能力及其在先驗(yàn)預(yù)期下的合理性。例如,如果所有在線(xiàn)民調(diào)機(jī)構(gòu)高估共和黨的投票份額五個(gè)百分點(diǎn),選舉會(huì)是什么樣子?如果所有全國(guó)民調(diào)高估民主黨兩個(gè)百分點(diǎn)呢?如果密歇根州的州級(jí)民調(diào)波動(dòng)達(dá)十個(gè)百分點(diǎn),模型會(huì)在預(yù)測(cè)該州選票時(shí)加入更多不確定性——以及在預(yù)測(cè)相似州(如俄亥俄州)時(shí)也是如此。
在離選舉日還有的每一天里,MCMC過(guò)程允許州級(jí)民調(diào)平均值在其10,001次模擬中以小幅度隨機(jī)波動(dòng)。每次“隨機(jī)漫步”可以?xún)A向于民主黨或共和黨,但更有可能向“先驗(yàn)”預(yù)測(cè)指示的方向傾斜,而不是相反。由于這些步驟是相關(guān)聯(lián)的,一個(gè)州向某候選人偏移可能會(huì)在相似州中反映出類(lèi)似的變化。隨著選舉臨近,隨機(jī)波動(dòng)累積的天數(shù)減少,減少了當(dāng)前民調(diào)平均值周?chē)牟淮_定性范圍,以及先驗(yàn)對(duì)最終預(yù)測(cè)的影響。在選戰(zhàn)后期進(jìn)行大量民調(diào)的州,模型會(huì)較少關(guān)注其先驗(yàn)預(yù)測(cè);相反,在競(jìng)選早期或民調(diào)較少的州(尤其是那些無(wú)法基于相似州民調(diào)做出可靠假設(shè)的州),先驗(yàn)預(yù)測(cè)的權(quán)重會(huì)更大。
最終結(jié)果是10,001條選舉可能路徑的列表。其中一些路徑包括全國(guó)性、區(qū)域性或人口統(tǒng)計(jì)學(xué)錯(cuò)誤,導(dǎo)致一黨或另一黨受益。一些路徑顯示登記選民民調(diào)出現(xiàn)大偏差;其他則顯示不同調(diào)查人群或方法之間差異較小。越有可能的情景,越頻繁地出現(xiàn)在這些模擬中——但即使是極不可能的情景(如Biden在普選中落敗但贏得選舉人團(tuán))也會(huì)偶爾出現(xiàn)。這些模擬中某候選人獲勝的次數(shù)即為其勝選概率。
像所有模型一樣,我們的預(yù)測(cè)依賴(lài)于假設(shè)過(guò)去的選民行為和民調(diào)準(zhǔn)確性的歷史關(guān)系將延續(xù)到未來(lái)。與物理學(xué)不同,政治中這一點(diǎn)并不保證。遲早,選民將做出與過(guò)去先例極不相符的決定,我們的模型將面臨新一輪的批評(píng)。但只要這些“黑天鵝”事件發(fā)生的頻率與我們預(yù)期的大致相符——既不太頻繁也不太少——我們的模型就能發(fā)揮其作用。如果我們的勝率與實(shí)際結(jié)果不一致,我們歡迎從錯(cuò)誤中學(xué)習(xí)并在下次做得更好。
本文譯自 The Economist,由 BALI 編輯發(fā)布。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )