2014世界杯出來很多新鮮東西,很多都是以前沒有的,科技領(lǐng)域自然也不會在這場萬眾矚目的盛事中落后,大數(shù)據(jù)預(yù)測成為本屆世界杯的熱門話題。微軟、高盛、百度、谷歌等幾家公司通過自有的大數(shù)據(jù)系統(tǒng)對比賽進(jìn)行預(yù)測,雖然預(yù)測結(jié)果有些令人不忍直視,但在我看來,積極成分很多,大數(shù)據(jù)應(yīng)用方面畢竟有了個好的開始。
世界杯的64場比賽,看上去只是簡單比分和簡單賽果,但變量多到靠人工根本算不出來。僅通過對球隊(duì)歷史成績和賠率數(shù)據(jù)進(jìn)行綜合分析這一項(xiàng),如果靠人工進(jìn)行計(jì)算,假設(shè)有現(xiàn)成的精準(zhǔn)數(shù)據(jù)模型,在忽略出錯概率的情況下,幾億條數(shù)據(jù)需要1個人花費(fèi)數(shù)十年時間。好在當(dāng)前IT計(jì)算能力已不是什么問題,這些工作完全可以通過機(jī)器來完成。
本次世界杯各家的預(yù)測結(jié)果是這樣的:
小組賽預(yù)測準(zhǔn)確度:
Baidu:58.33%
Microsoft:56.25%
GoldmanSachs:37.5%
1/8決賽預(yù)測準(zhǔn)確率:
Google:100%
Baidu:100%
1/4決賽預(yù)測準(zhǔn)確率:
Google:75%
Baidu:100%
小組賽的預(yù)測準(zhǔn)確率相對較低,百度以58.33%的準(zhǔn)確率拔得頭籌,成為預(yù)測最準(zhǔn)確的公司。而到了后面的淘汰賽階段,百度則100%算準(zhǔn)了比賽結(jié)果。通過進(jìn)一步分析發(fā)現(xiàn),百度的數(shù)據(jù)模型原理,是導(dǎo)致其準(zhǔn)確率居首的主要原因??梢钥匆幌聨准业臄?shù)據(jù)模型特點(diǎn)。
百度通過分析469家歐賠公司的賠率數(shù)據(jù)構(gòu)建預(yù)測模型。
微軟通過對Betfair博彩交易市場數(shù)據(jù)來分析構(gòu)建預(yù)測模型。
高盛預(yù)測:通過對1960年以來的正式國際足球比賽數(shù)據(jù)的回歸分析來構(gòu)建其預(yù)測模型。同時,高盛還通過泊松模型分析了每場小組賽的比分情況。
谷歌預(yù)測數(shù)據(jù)主要來自O(shè)ptaSports的海量賽事數(shù)據(jù),預(yù)測基于球隊(duì)實(shí)力的排序模型、以及各個國家球迷到巴西的數(shù)量和熱情度構(gòu)建的球隊(duì)主場優(yōu)勢模型
我們從后往前看,谷歌不是這次大數(shù)據(jù)預(yù)測中最差的公司,其數(shù)據(jù)模型中的數(shù)據(jù)樣本更為豐富,除了海量球隊(duì)數(shù)據(jù)之外,連有多少球迷到場,對國家對有多大熱情度都計(jì)算進(jìn)去了。這基本上是給自己弄了個不可能完成的任務(wù),變量太多,有一些涉及人文和社會學(xué)數(shù)據(jù)了,現(xiàn)有技術(shù)條件太難處理。例如哥斯達(dá)黎加人去巴西看球很容易,加納人去就不容易,這怎么說呢,難道還要考慮經(jīng)濟(jì)狀況嗎?
高盛是本次大數(shù)據(jù)預(yù)測中表現(xiàn)最差的一個,本來人也不是科技公司。高盛的辦法有些傳統(tǒng),就是球隊(duì)成績的歷史數(shù)據(jù),這是維度較為單一的數(shù)據(jù)采樣方法。我想起一件事,彩票中的數(shù)據(jù)分析有沒有用?我的結(jié)論是有一點(diǎn)用,但沒大用。有一年福彩排列三連續(xù)20多期中間位置沒出現(xiàn)過5,很多人在20多期就殺進(jìn)去,250元一注包中間的5,結(jié)果一直包到52期這個5才出來,傾家蕩產(chǎn)者眾。從統(tǒng)計(jì)學(xué)角度看,這個5即便100期不出來也沒什么稀奇的,因?yàn)槊恳淮蔚某霈F(xiàn)概率都一樣。從這點(diǎn)看,高盛本次墊底是眾望所歸的,大數(shù)據(jù)預(yù)測更關(guān)鍵的一點(diǎn)在于變量,而非對歷史數(shù)據(jù)的精細(xì)運(yùn)算。
微軟的辦法比較不錯,只是不錯而已。Betfair博彩交易市場在歐洲很有代表性,這個市場交易規(guī)模超過倫敦證券交易所,其賠率往往有先知先覺的功能,非常準(zhǔn)。不過很可惜的是,微軟此次成績也不是很好。一個主要原因是,微軟選取了博彩市場上的頭部數(shù)據(jù),忽略了長尾數(shù)據(jù),數(shù)據(jù)取樣過于規(guī)矩,維度單一。如果以Betfair數(shù)據(jù)為基礎(chǔ),通過注入大量其他數(shù)據(jù)作為變量,這似乎是條可行的路,但要達(dá)到準(zhǔn)確效果的話,這個變量會非常大,計(jì)算起來很復(fù)雜,這并不是一條經(jīng)濟(jì)的路。
百度的方法在目前看來比較可行,其基礎(chǔ)數(shù)據(jù)是將所有博彩公司的賠率納入數(shù)據(jù)模型。我覺得博彩公司的賠率,本身就是去噪后的結(jié)果,雖然賠率各不相同,但都是動態(tài)的,是較為優(yōu)質(zhì)的數(shù)據(jù)源,與球隊(duì)成績這類的數(shù)據(jù)完全不同。在這個基礎(chǔ)上,百度又將過去5年全世界987支球隊(duì)的3.7萬場比賽數(shù)據(jù)納入模型,還加入了一些自己的搜索數(shù)據(jù),涉及19972名球員和1.12億條相關(guān)數(shù)據(jù)。一邊是賠率數(shù)據(jù),一邊是球隊(duì)數(shù)據(jù),以哪個為基礎(chǔ)很重要,百度選擇了更為動態(tài)的賠率數(shù)據(jù),最終得出了相對最為準(zhǔn)確的結(jié)果。本次百度大數(shù)據(jù)的準(zhǔn)確率接近80%,用這個模型對2006年和2010年世界杯的淘汰賽進(jìn)行驗(yàn)證,準(zhǔn)確度也接近75%。這說明一件事,百度的方法在目前是最合適的。
不過跳出這件事來看,其實(shí)現(xiàn)在的成績?nèi)圆荒茏C明大數(shù)據(jù)真的有預(yù)言未來的能力,目前的大數(shù)據(jù),仍處在相當(dāng)初級的階段。大數(shù)據(jù)其實(shí)可以分成三個層次,首先是對現(xiàn)有數(shù)據(jù)的全面分析,這涉及到模型建立,各項(xiàng)數(shù)據(jù)在模型中所占的比例和權(quán)重如何,這都是要考慮的事情。像高盛那樣就等于是走了彎路,不像是大數(shù)據(jù)預(yù)測了,倒像是傳統(tǒng)的數(shù)據(jù)分析。而百度所做的一切雖然堪稱優(yōu)秀,也還是沒跳出這個層次。
第二個層次,是對數(shù)據(jù)變量的衡定和把握,即大數(shù)據(jù)的智能化。大數(shù)據(jù)要去噪,要考慮微小變量。例如匈牙利在30多年前橫掃歐洲足壇,差一點(diǎn)奪得世界杯,但近20年世界杯賽場上難覓其蹤,這件事該怎么算。又例如荷蘭多次與冠軍失之交臂,其與冠軍的距離到底是如德國一樣近,還是像中國一樣遠(yuǎn),都是大數(shù)據(jù)要做出判斷的事情。
第三個層次,是大數(shù)據(jù)的人文化。在一切數(shù)據(jù)分析已臻于完善的情況下,引入人文、社會、心理等因素,才能讓大數(shù)據(jù)結(jié)果更準(zhǔn)確。巴西隊(duì)實(shí)力遠(yuǎn)勝于美國,但每次遇到美國都是磕磕絆絆,險象環(huán)生,這里面有沒有心理因素存在。為什么巴西在過去20年進(jìn)入決賽的時候,掉鏈子的情況比較多,為什么巴西會1:7輸給德國,這些都已超出數(shù)據(jù)分析的范疇了,必須要給大數(shù)據(jù)引入人文社會因素,才能加以回答。
雖然大數(shù)據(jù)跨越這幾個層次,看上去是那么遙不可及,但目前至少是起步了,這是個好的開始。對大數(shù)據(jù)的發(fā)展應(yīng)該更為寬容一些,任重而道遠(yuǎn)不怕,怕的是不走上正確的道路,因?yàn)闆]有初期那些笨拙的動作,是看不到未來美妙揮灑的。
===================================================
我是微信公眾賬號gejia021的獨(dú)立運(yùn)營者,90%的原創(chuàng)科技與人生感悟文章,獨(dú)立觀點(diǎn),不屑流俗。期圖以一己之力,闡釋和說明中國互聯(lián)網(wǎng)的本質(zhì)。
微信號gejia021,是覆蓋1000萬用戶的,中國最大的自媒體聯(lián)盟wemedia成員之一。亦是2013年十佳自媒體,科技原創(chuàng)力30人之一。
我在新浪微博的用戶名為@葛甲,在新浪、搜狐博客、艾瑞專欄、今日頭條等自媒體平臺的用戶名均為葛甲,歡迎訂閱。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 生成式AI云上創(chuàng)新,“全棧聯(lián)動”將成關(guān)鍵詞?
- 大模型進(jìn)化論:AI產(chǎn)業(yè)落地將卷向何方?
- 2024年劇集氪金力大盤點(diǎn)
- “共創(chuàng)”、“造梗”成頂流,傳統(tǒng)品牌緣何要花式出圈?
- 人形機(jī)器人瘋狂進(jìn)廠打工!銀河通用、智元、樂聚機(jī)器人怕是都瘋了
- 因?yàn)樗投Y電商!2025微信、抖音、淘寶又撕破了臉
- 中國手機(jī)市場成績單:華為增長最快,蘋果跌幅最大
- 原以為微軟、亞馬遜、阿里云云計(jì)算大局已定!沒想到有這四大變數(shù)
- 崖州灣之旅:看見海與智能,聯(lián)想到了未來
- 榮耀換帥,一艘AI巨輪的舵手更替會帶來什么?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。