精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<p id="pv9gf"><ins id="pv9gf"><label id="pv9gf"></label></ins></p>

直播
榜單
7x24h快訊

極客網(wǎng) > 企業(yè)級IT >

「大數(shù)據(jù)」這詞不火了是不是因為沒當年說的那么大

人閱讀
2017-10-20 08:59:32
來源：36大數(shù)據(jù)
相關關鍵詞

大數(shù)據(jù)

10月19日消息，國外媒體Slate刊文指出，“大數(shù)據(jù)(Big Data)”一詞已經(jīng)變得沒有以往那么紅火了，為什么會這樣呢?“大數(shù)據(jù)”的問題并不在于數(shù)據(jù)或者大數(shù)據(jù)本身很糟糕，而是在于盲目迷戀數(shù)據(jù)，不加批判地使用，那會引發(fā)災難。數(shù)據(jù)也不一定完全反映你想要了解的事情的實際情況。

以下是文章主要內容：

5年前——2012年2月——《紐約時報》刊文高呼人類的一個新紀元的到來：“大數(shù)據(jù)時代”。該文章告訴我們，社會將開始發(fā)生一場革命，在這場革命中，海量數(shù)據(jù)的收集與分析將會改變人們生活的幾乎每一個方面。數(shù)據(jù)分析不再局限于電子數(shù)據(jù)表和回歸分析：超級計算的到來，伴隨著可持續(xù)記錄數(shù)據(jù)并將數(shù)據(jù)傳送到云端的聯(lián)網(wǎng)傳感器的不斷普及，意味著邁克爾·劉易斯(Michael Lewis)2003年的棒球書籍《Moneyball》所描述的那種先進數(shù)據(jù)分析有望被應用于各行各業(yè)，從商業(yè)到學術，再到醫(yī)療和兩性關系。不僅如此，高端的數(shù)據(jù)分析軟件還有助于鑒定完全意想不到的相關性，比如貸款方用盡額度和他債務違約的可能性之間的關系。這勢必將會催生會改變我們思考幾乎一切事物的新穎見解。

《紐約時報》并不是第一個得出這一結論的企業(yè)機構：它的文章引用了麥肯錫咨詢公司2011年的一份重大報告，其觀點也得到了2012年瑞士達沃斯世界經(jīng)濟論壇題為“大數(shù)據(jù)，大影響”的官方報告的支持。但這種宣言仿佛就是標志大數(shù)據(jù)時代開啟的里程碑。在之后的一個月里，巴拉克·奧巴馬(Barack Obama)的白宮成了一個2億美元的國家大數(shù)據(jù)項目，瘋狂熱潮隨即襲來：學術機構、非盈利組織、政府和企業(yè)都爭相去探究“大數(shù)據(jù)”究竟是什么，他們可以如何好好利用它。

事實證明，這種瘋狂沒有持續(xù)很長時間。5年后，數(shù)據(jù)在我們的日常生活中扮演重要很多的角色，但大數(shù)據(jù)一詞已經(jīng)不再流行——甚至讓人覺得有些討厭。我們被允諾的那場革命究竟發(fā)生了什么呢?數(shù)據(jù)、分析技術和算法現(xiàn)在又在往什么方向發(fā)展呢?這些問題值得回頭去思考。

科技咨詢公司Gartner在它2015年相當有名的“技術成熟度曲線”報告中不再使用“大數(shù)據(jù)”一次，之后該詞再也沒有回歸。該公司澄清道，這并不是因為企業(yè)放棄挖掘巨量數(shù)據(jù)集獲得洞見的概念。而是因為那種做法已經(jīng)變得廣為流行，以至于它不再符合“新興技術”的定義。大數(shù)據(jù)幫助驅動我們的動態(tài)消息、Netflix視頻推薦、自動化股票交易、自動校正功能、健康跟蹤設備等不計其數(shù)的工具背后的算法。但我們現(xiàn)在不大使用大數(shù)據(jù)一詞了——我們只是將它稱作數(shù)據(jù)。我們開始將數(shù)據(jù)集能夠包含無數(shù)的觀察結果，先進軟件能夠檢測當中的趨勢當做理所當然的事情。

大數(shù)據(jù)引發(fā)的嚴重錯誤

雖然該詞仍有被使用，但它更多地帶有一種不好的意味，比如凱茜·奧尼爾(Cathy O’Neil)2016年的著作《數(shù)學殺傷性武器》(Weapons of Math Destruction)或者弗蘭克·帕斯夸里(Frank Pasquale)2015年的《黑箱社會》(The Black Box Society)。匆忙執(zhí)行和應用大數(shù)據(jù)，即進行所謂的“數(shù)據(jù)驅動型決策”，帶來了嚴重的錯誤。

有的錯誤相當惹人注目：塔吉特(Target)曾向一位沒跟任何人說過自己懷孕的少女的家庭派送嬰兒用品優(yōu)惠券;Pinterest曾恭喜一位單身女性即將結婚;谷歌照片(Google Photos)也曾引發(fā)軒然大波，該公司被大肆吹捧的AI將黑人誤以為是大猩猩，原因是它的訓練數(shù)據(jù)不夠多元化。(值得指出的是，至少在該事件中，“大數(shù)據(jù)”還不夠大。)

其它的錯誤更為微妙，或許也更加陰險。當中包括奧尼爾在她的重要著作中記錄的那些不透明的數(shù)據(jù)驅動式制度性模型：被法庭用來判決罪犯的、帶有種族偏見的累犯模型，或者那些基于可疑的測驗分數(shù)數(shù)據(jù)解雇備受愛戴的教師的模型。大數(shù)據(jù)出錯的新案例可謂層出不窮——比如Facebook算法明顯幫助俄羅斯通過針對性的假新聞影響美國總統(tǒng)大選的結果。

盲目迷戀數(shù)據(jù)與誤用

“大數(shù)據(jù)”的問題并不在于數(shù)據(jù)本身很糟糕，也不在于大數(shù)據(jù)本身很糟糕：謹慎應用的話，大型數(shù)據(jù)集還是能夠揭示其它途徑發(fā)現(xiàn)不了的重要趨勢。正如茱莉婭·羅斯·韋斯特(Julia Rose West)在最近給Slate撰寫的文章里所說的，盲目迷戀數(shù)據(jù)，不加批判地使用，往往導致災難的發(fā)生。

從本質來看，大數(shù)據(jù)不容易解讀。當你收集數(shù)十億個數(shù)據(jù)點的時候——一個網(wǎng)站上的點擊或者光標位置數(shù)據(jù);大型公共空間十字轉門的轉動次數(shù);對世界各地每個小時的風速觀察;推文——任何給定的數(shù)據(jù)點的來源會變得模糊。這反過來意味著，看似高級別的趨勢可能只是數(shù)據(jù)問題或者方法造成的產物。但也許更重大的問題是，你所擁有的數(shù)據(jù)通常只是你真正想要知道的東西的一個指標。大數(shù)據(jù)不能解決那個問題——它反而放大了那個問題。

例如，民意調查被廣泛用作衡量人們在選舉中的投票意向的指標。然而，從湯姆·布拉德利(Tom Bradley)1982年在加州州長競選中敗北，到英國脫歐公投，再到特朗普的當選，數(shù)十年來結果出乎意料的選舉一再提醒我們，民意測驗和人們實際的投票意向之間并不總是完全一致。Facebook以往主要通過用戶有沒有點贊來估量他們對特定的帖子是否有興趣。但隨著經(jīng)過算法優(yōu)化的動態(tài)信息開始大量出現(xiàn)標題誘餌、點贊誘餌和嬰兒照片——導致用戶滿意度明顯下降——該公司的高層逐漸意識到，“點贊”這事并不一定意味著用戶真的喜歡特定的內容。

指標和你實際上要估量的東西之間的差別越大，過于倚重它就越危險。以來自奧尼爾的著作的前述例子為例：學區(qū)使用數(shù)學模型來讓教師的表現(xiàn)評估與學生的測驗分數(shù)掛鉤。學生測驗分數(shù)與不在教師控制范圍內的無數(shù)重要因素有關。大數(shù)據(jù)的其中一個優(yōu)勢在于，即便是在非常嘈雜的數(shù)據(jù)集里，你也可以發(fā)現(xiàn)有意義的關聯(lián)性，這主要得益于數(shù)據(jù)量大以及理論上能夠控制混雜變量的強大軟件算法。例如，奧尼爾描述的那個模型，利用來自多個學區(qū)和體系的學生的眾多人口結構方面的相關性，來生成測驗分數(shù)的“預期”數(shù)據(jù)集，再拿它們與學生的實際成績進行比較。(由于這個原因，奧尼爾認為它是“大數(shù)據(jù)”例子，盡管那個數(shù)據(jù)集并不夠大，沒達到該詞的一些技術定義的門檻。)

試想一下，這樣的系統(tǒng)被應用在同一所學校里面——拿每個年級的教師與其它年級的教師比較。要不是大數(shù)據(jù)的魔法，學生特定學年異常的測驗分數(shù)會非常惹眼。任何評估那些測驗的聰明人，都不會認為它們能夠很好地反映學生的能力，更不用說教他們的老師了。

而前華盛頓特區(qū)教育局長李洋姬(Michelle Rhee)實行的系統(tǒng)相比之下更不透明。因為數(shù)據(jù)集比較大，而不是小，它必須要由第三方的咨詢公司利用專門的數(shù)學模型來進行分析解讀。這可帶來一種客觀性，但它也排除掉了嚴密質問任何給定的信息輸出，來看看該模型具體如何得出它的結論的可能性。

例如，奧尼爾分析道，有的教師得到低評分，可能不是因為他們的學生表現(xiàn)糟糕，而是因為那些學生之前一年表現(xiàn)得出奇地好——可能因為下面那個年級的教師謊稱那些學生表現(xiàn)很好，以提升他自己的教學評分。但對于那種可能性，學校高層并沒什么興趣去深究那種模型的機制來予以證實。

加入更多指標

并不是說學生測驗分數(shù)、民意調查、內容排名算法或者累犯預測模型統(tǒng)統(tǒng)都需要忽視。除了停用數(shù)據(jù)和回歸到奇聞軼事和直覺判斷以外，至少有兩種可行的方法來處理數(shù)據(jù)集和你想要估量或者預計的現(xiàn)實世界結果之間不完全相關帶來的問題。

其中一種方法是加入更多的指標數(shù)據(jù)。Facebook采用這種做法已有很長一段時間。在了解到用戶點贊不能完全反映他們在動態(tài)消息當中實際想要看到的東西以后，該公司給它的模型加入了更多的指標。它開始測量其它的東西，比如用戶看一篇帖子的時長，他們?yōu)g覽其點擊的文章的時間，他們是在看內容之前還是之后點贊。Facebook的工程師盡可能地去權衡和優(yōu)化那些指標，但他們發(fā)現(xiàn)用戶大體上還是對動態(tài)消息里呈現(xiàn)的內容不滿意。因此，該公司進一步增加測量指標：它開始展開大范圍的用戶調查，增加新的反應表情讓用戶可以傳達更加細微的感受，并開始利用AI來按頁面和按出版者檢測帖子的標題黨語言。該社交網(wǎng)絡知道這些指標沒有一個是完美的。但是，通過增加更多的指標，它理論上能夠更加接近于形成可給用戶展示他們最想要看到的帖子的算法。

這種做法的一個弊端在于，它難度大，成本高昂。另一個弊端在于，你的模型加入的變量越多，它的方法就會變得越錯綜復雜，越不透明，越難以理解。這是帕斯夸里在《黑箱社會》里闡述的問題的一部分。算法再先進，所利用的數(shù)據(jù)集再好，它也有可能會出錯——而它出錯的時候，診斷問題幾無可能。“過度擬合”和盲目相信也會帶來危險：你的模型越先進，它看上去與你過往所有的觀察越吻合，你對它越有信心，它最終讓你一敗涂地的危險就越大。(想想次貸危機、選舉預測模型和Zynga吧。)

小數(shù)據(jù)

對于源自大數(shù)據(jù)集偏見的問題，另一個潛在的應對方法是部分人所說的“小數(shù)據(jù)”。小數(shù)據(jù)是指，數(shù)據(jù)集足夠簡單到可以直接由人來分析和解讀，不需要求助于超級計算機或者hadoop作業(yè)。跟“慢餐”一樣，該詞也是因為其相反面的流行而產生。

丹麥作家、營銷顧問馬丁·林德斯特羅姆(Martin Lindstrom)在他2016年的著作《小數(shù)據(jù)：揭示大趨勢的微小線索》中談到了那種做法。例如，丹麥知名玩具廠商樂高(Lego)依據(jù)大量聲稱千禧一代需要即時滿足，更容易被比較輕松的項目吸引的研究，轉向提供更大的積木，還在1990年代末和2000年代初打造主題公園和視頻游戲。這種轉型沒有奏效。

那種由數(shù)據(jù)驅動的范式最后被它的營銷者2004年進行的一項范圍小得多的人類學調查顛覆。它的營銷者逐個詢問小孩他們最珍愛什么物品，發(fā)現(xiàn)他們最喜歡也最忠于可讓顯示出其苦苦練就的能力的產品——比如一雙因數(shù)百個小時的滑板練習而磨損的舊運動鞋。據(jù)林德斯特羅姆(他曾擔當樂高的顧問，自己也很喜歡玩樂高積木)說，樂高重新專注于提供它原來的小積木，由此實現(xiàn)復興。

在很多方面，亞馬遜是可充分說明大數(shù)據(jù)威力的典型例子。它關于其數(shù)以億計的顧客的購買和商品瀏覽習慣的數(shù)據(jù)，幫助它成為全世界最成功的零售商之一。不過，布拉德·斯通(Brad Stone)在他的書《萬貨商店》(Everything Store)中稱，該公司的CEO杰夫·貝索斯(Jeff Bezos)有個很有趣(對于他的員工來說則很可怕)的方式來平衡所有的那些客觀數(shù)據(jù)分析。他時不時會將顧客發(fā)來的投訴郵件轉發(fā)給他的高層團隊，要求他們不僅僅要解決投訴的問題，還要徹底調查清楚它發(fā)生的原因，并撰寫一份解釋報告。

這說明，貝索斯不僅僅理解大數(shù)據(jù)提升各個系統(tǒng)運行效率的威力，還知道大數(shù)據(jù)也要可能會掩蓋沒有得到有效估量的特定問題的發(fā)生原因和機制。在根據(jù)你知道該如何測量的事情做出決策的時候，安全的做法是確保也有機制讓你能夠知道你不知道該如何估量的事情?！皢栴}總是，你沒有收集什么數(shù)據(jù)?”奧尼爾在接受電話采訪時表示，“什么數(shù)據(jù)是你看不到的?”

未來展望

隨著“大數(shù)據(jù)”不再被當做熱詞，我們有希望逐漸對數(shù)據(jù)的威力和陷阱形成更加細致入微的理解。回頭來看，收集數(shù)據(jù)的傳感器和分析數(shù)據(jù)的超級計算機一下子大量涌現(xiàn)，引發(fā)一股淘金熱，以及很多時候錯失這一切的恐懼會壓過你的審慎情緒，都是可以理解的。與此同時，必然會有深思熟慮的人開始引起我們對這些情況的注意，大數(shù)據(jù)也不可避免地會帶來反效果。

不過，大數(shù)據(jù)誤用帶來的威脅，不會僅僅因為我們不再用敬畏的口吻來說那個詞而消失?？纯碐artner 2017年技術成熟度曲線的頂峰，你會看到像機器學習和深度學習這樣的詞，以及代表這些計算技術的現(xiàn)實應用的無人駕駛汽車、虛擬助手等相關的詞。這些是基于與大數(shù)據(jù)一樣的基礎的新“棚架層”，它們全都依賴于大數(shù)據(jù)。它們已經(jīng)走在通向真正的突破的道路上——但可以肯定的是，它們也會導致嚴重的錯誤。

極客網(wǎng)企業(yè)會員

免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。

下一篇

阿斯麥訂單“腰斬”股價暴跌16%，半導體產業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價暴跌

極客觀察

專題報道

企業(yè)專欄

簡版
原版
投稿
回頂部

2017-10-20

「大數(shù)據(jù)」這詞不火了是不是因為沒當年說的那么大

10月19日消息，國外媒體Slate刊文指出，“大數(shù)據(jù)(Big Data)”一詞已經(jīng)變得沒有以往那么紅火了，為什么會這樣呢?“大數(shù)據(jù)”的問題并不在于數(shù)據(jù)或者大數(shù)

長按掃碼閱讀全文

<center id="bgsdb"><ins id="bgsdb"></ins></center>