當我們在地鐵上習(xí)慣性地拿起手機發(fā)幾條微博的時候,當我們被一張又一張的美圖迷亂了眼球的時候,當各式各樣的網(wǎng)絡(luò)拍客忙得熱火朝天的時候……一個叫做“大數(shù)據(jù)(Big Data)”的名詞不經(jīng)意間在IT界走紅,“大數(shù)據(jù)”的時代正在朝我們走來。
所謂的“大數(shù)據(jù)”有兩個方面的內(nèi)涵——海量和非結(jié)構(gòu)化。這并非一個很突然的變化,更不是一個很新鮮的趨勢,那它究竟意味著什么?答案是——機遇。一方面,對于企業(yè)是一種機遇。企業(yè)可以基于現(xiàn)有的大量的數(shù)據(jù)、海量數(shù)據(jù)進行分析,并利用這些數(shù)據(jù)產(chǎn)生效益。另一方面,對一些特定領(lǐng)域的發(fā)展來說也是機遇。如醫(yī)療等領(lǐng)域,有著大量的文獻、化驗結(jié)果、病例等等,這些信息大部分以人類語言方式記錄下來,通過對這些信息的挖掘,可以輔助醫(yī)生作出正確的決策。
當然,機遇與挑戰(zhàn)并存,“大數(shù)據(jù)”對于企業(yè)來說也是如此。在談Watson如何幫助企業(yè)應(yīng)戰(zhàn)“大數(shù)據(jù)”時代之前,首先需要了解“大數(shù)據(jù)”對于企業(yè)來說究竟意味著怎樣嚴峻的挑戰(zhàn)。
“大數(shù)據(jù)”時代企業(yè)面臨著三大嚴峻現(xiàn)實
現(xiàn)實之一:海量
IDC最新數(shù)字宇宙研究報告表明,到2020年,全球數(shù)據(jù)使用量預(yù)計暴增44倍,達到35.2ZB。35ZB是什么概念?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是說全球大概需要376億個1TB硬盤來存儲數(shù)據(jù)。
現(xiàn)實之二:非結(jié)構(gòu)化
相對于結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。
據(jù)統(tǒng)計,企業(yè)中20%的數(shù)據(jù)是結(jié)構(gòu)化的,80%是非結(jié)構(gòu)化或半結(jié)構(gòu)化的。當今世界結(jié)構(gòu)化數(shù)據(jù)增長率大概是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長則是63%,至2012年,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達到互聯(lián)網(wǎng)整個數(shù)據(jù)量的75%以上。
現(xiàn)實之三:實時處理
一項對全球CIO調(diào)查得出的結(jié)論表明:“通過對企業(yè)界搜集的大量數(shù)據(jù)進行實時分析,并從中獲得啟示,進而將這些啟示轉(zhuǎn)化為自身的競爭優(yōu)勢,對當今企業(yè)來說至關(guān)重要。”
某證券公司的CIO在介紹公司對于數(shù)據(jù)實時處理的需求時曾經(jīng)表示,上億條數(shù)據(jù)的分析要在5秒鐘內(nèi)完成。
“大數(shù)據(jù)”來襲!人機大戰(zhàn)冠軍Watson如何應(yīng)戰(zhàn)?
作為IBM“智慧的運算”理念的重要支柱,Watson以其海量數(shù)據(jù)實時分析、負載優(yōu)化系統(tǒng)方面的能力征服了全世界,下面將進一步分析Waston將有哪些法寶來助力企業(yè)應(yīng)對“大數(shù)據(jù)”的挑戰(zhàn),抓住大數(shù)據(jù)的機遇。
法寶之一:超強的自然語言理解能力。對于那些廣泛使用分析應(yīng)用的企業(yè)用戶來說很重要這這一點很重要,過去,那些企業(yè)用戶往往會被這類應(yīng)用的復(fù)雜的接口所嚇倒。Watson證明了通過自然語言與計算機的互交不再是科幻小說和好萊塢電影里的情節(jié),其超強的自然語言理解技術(shù)完全可以根據(jù)自然語言上下文的內(nèi)容和語境來準確理解詞義。
法寶之二:非結(jié)構(gòu)化數(shù)據(jù)的處理。Watson是根據(jù)一些文本形式知識庫來回答問題,這樣的文本庫是非結(jié)構(gòu)化的信息,而不是基于結(jié)構(gòu)化的知識庫,這樣的知識庫可以使用知識表示語言(如CYC)來表示。在這一方面,Watson與Wolfram|Alpha等其他的問答系統(tǒng)有很大的不同。
法寶之三:快速、高效地處理非結(jié)構(gòu)化數(shù)據(jù)。盡管Waston在《危險邊緣》節(jié)目中所分析的數(shù)據(jù)集相對于“大數(shù)據(jù)”的標準來說微不足道,但是,能夠快速、高效地對非結(jié)構(gòu)化數(shù)據(jù)進行分析是許多大數(shù)據(jù)分析情況中非常具有代表性的需求。很多時候,你不能確定需要對何種數(shù)據(jù)進行分析,不知道數(shù)據(jù)從哪里來,每一個數(shù)據(jù)集將會有多大,它是否干凈,甚至不知道必須要在多久之內(nèi)提供一個答案。
法寶之四:基于文本的預(yù)測和分析算法。Waston目前使用了大量的預(yù)測模型來分析大數(shù)據(jù),并且實時地得出結(jié)論。這是十分重要的一點,因為這為大數(shù)據(jù)的分析提供了另外一種很重要的方法。它與傳統(tǒng)的Hadoop/MapReduce實現(xiàn)方式不同,不是一個單一的分析算法然后用MapReduce來適應(yīng)一個大的數(shù)據(jù)集,而是使用了一些不同的預(yù)測和評估的算法。這些算法其中可能有一些是并行的,可以最大程度地發(fā)揮MapReduce的優(yōu)勢。這些基于文本的算法的應(yīng)用對于IBM來說十分重要,因為它大部分的客戶都面臨著這樣的數(shù)據(jù)(文本數(shù)據(jù))。
當然,在比賽中,沃森分析的數(shù)據(jù)都是比較干凈的,現(xiàn)實生產(chǎn)中的“大數(shù)據(jù)”很少有這樣干凈的數(shù)據(jù),IBM還需要用更加嘈雜的數(shù)據(jù)以及視頻和音頻數(shù)據(jù)來測試系統(tǒng)的性能。Watson未來將針對不同的行業(yè)應(yīng)用推出負載優(yōu)化的解決方案,如醫(yī)療、金融、呼叫中心等,屆時IBM Watson將會真正成為“大數(shù)據(jù)”時代的英雄。
- 速通 NVIDIA 專業(yè)顯卡:專業(yè)顯卡有哪些優(yōu)勢?適合什么場景?
- 馬蜂窩跨年出行預(yù)測:儀式感必不可少,“跨年煙花”帶動目的地熱度上漲
- 30億元!比亞迪捐資興教推動中國科教進步
- 閉著眼睛寫代碼是一種什么樣的體驗?
- 2024世界顯示產(chǎn)業(yè)大會啟幕,4K花園自研“滿天星”獲十大創(chuàng)新應(yīng)用
- 哈佛商學(xué)院:2024年全球96%代碼庫包含開源組件 Rust采用率增長500%
- 硅谷1/10程序員在摸魚?基本不干活卻能拿20-30萬美元年薪
- 傳馬斯克的"友商"擔心被報復(fù) 紛紛示好特朗普
- 數(shù)智龍江向新而行:5G-A與AI等數(shù)智技術(shù)助力龍江打造新質(zhì)生產(chǎn)力
- 加州對特斯拉和SpaceX說不,公報私仇觸怒馬斯克
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。