精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    大數(shù)據(jù),背后離不開這個(gè)核心技術(shù)

    原標(biāo)題:大數(shù)據(jù),背后離不開這個(gè)核心技術(shù)

    大數(shù)據(jù)正在成為我們生活的重要元素之一,它能驅(qū)動(dòng)生活變得更加美好。疫情期間的健康碼背后,就離不開大數(shù)據(jù)的支持。如何讓大數(shù)據(jù)的速度更快、更穩(wěn)定?這涉及到的核心技術(shù)之一便是內(nèi)存。本文將為大家解惑:內(nèi)存如何支持大數(shù)據(jù)。

    我們從未發(fā)現(xiàn)距離大數(shù)據(jù)竟如此之近。

    雖然在日常的新聞報(bào)道中,我們常能聽到大數(shù)據(jù)這個(gè)名詞,但更多只是一個(gè)概念。直到伴隨新冠疫情防控的展開,掃碼已經(jīng)成為大家出行的“常規(guī)操作”的時(shí)候,我們才發(fā)現(xiàn)無論是進(jìn)入商場(chǎng)、小區(qū)還是乘坐公共交通,手機(jī)和口罩已成為大眾“必需品”,而根據(jù)掃碼信息追蹤個(gè)人活動(dòng)軌跡的大數(shù)據(jù)技術(shù)居然就在身邊。

    特別是伴隨著近日北京疫情的爆發(fā),醒目直觀的“新冠病例活動(dòng)地圖” 刷爆了朋友圈,這種公開、透明的方式也大大降低了民眾的恐懼感,提升了對(duì)于疫情防控的信心。顯然,這些軌跡的追蹤都是基于大數(shù)據(jù)實(shí)現(xiàn)的,而借助于數(shù)據(jù)分析,我們甚至可以對(duì)某些尚不自知的“密切接觸者”在第一時(shí)間進(jìn)行觀察與隔離。

    其實(shí)這種技術(shù)在疫情之初就已經(jīng)應(yīng)用于防控一線,早在今年2月,百度地圖就在北京、上海、深圳、鄭州等全國(guó)49個(gè)城市上線了“新冠病例曾活動(dòng)場(chǎng)所” 專題地圖,幫助公眾準(zhǔn)確掌握官方發(fā)布的相關(guān)信息,減少不必要的恐慌情緒,并協(xié)助社區(qū)有針對(duì)性地開展疫情防控,遏制疫情的進(jìn)一步擴(kuò)散。

    不僅如此,百度的大數(shù)據(jù)搜索平臺(tái)在提供疫情熱搜、熱搜謠言辟謠等服務(wù),并借助多維度的搜索大數(shù)據(jù)報(bào)告的同時(shí),還能夠根據(jù)搜索結(jié)果對(duì)于未來人流遷移進(jìn)行預(yù)測(cè)。比如在剛剛過去的端午小長(zhǎng)假中,“12306”相關(guān)內(nèi)容的搜索熱度同比下降59%,各旅游OTA平臺(tái)的搜索熱度同比下降57%。

    由此看來,大數(shù)據(jù)已經(jīng)影響到我們生活的方方面面,無論是數(shù)據(jù)分析還是數(shù)據(jù)查詢,我們都希望能夠在第一時(shí)間盡快完成,而這除了需要優(yōu)化的軟件與算法支持之外,更需要強(qiáng)大性能的硬件,特別是能夠?qū)?shù)據(jù)庫進(jìn)行加速的硬件產(chǎn)品。這也就是我們今天要介紹的主角——英特爾傲騰持久內(nèi)存。

    回顧大數(shù)據(jù)發(fā)展,我們發(fā)現(xiàn)這個(gè)概念大概在2012年以后就進(jìn)入了快速上升的通道,特別是Hadoop分布式架構(gòu)的出現(xiàn)讓大數(shù)據(jù)更容易被整個(gè)行業(yè)所接受。之后隨著時(shí)間的演變,Hadoop被一種名為Spark的技術(shù)所取代,后者的特點(diǎn)就是通過拓展內(nèi)存計(jì)算可在海量數(shù)據(jù)的迭代式計(jì)算和交互式計(jì)算中提供遠(yuǎn)快于Hadoop的運(yùn)算速度。同時(shí),Spark支持SQL請(qǐng)求、流數(shù)據(jù)處理、機(jī)器學(xué)習(xí)和圖表處理,提高開發(fā)者效率。

    百度自主研發(fā)的BIG SQL數(shù)據(jù)處理平臺(tái)正是以Spark SQL為基礎(chǔ),并引入了眾多新功能和性能拓展。當(dāng)然對(duì)于百度這樣的互聯(lián)網(wǎng)巨頭來說,每日產(chǎn)生的數(shù)據(jù)將以千百萬計(jì),僅就大家最熟悉也最常用的搜索業(yè)務(wù)來說就已經(jīng)是一個(gè)龐大的數(shù)字,也對(duì)后臺(tái)系統(tǒng)造成了壓力。

    我們?cè)诰W(wǎng)上進(jìn)行查詢的時(shí)候總希望后臺(tái)能夠“秒級(jí)響應(yīng)”,最好是點(diǎn)擊鼠標(biāo)立刻就出現(xiàn)結(jié)果,這種查詢就被稱為交互式查詢。雖然同樣要訪問大型數(shù)據(jù)庫,但是交互式查詢卻具有非常特定且具體的篩選條件,僅以查詢相對(duì)少量的數(shù)據(jù)為目的,因此就需要能在幾秒內(nèi)甚至幾毫秒內(nèi)返回。

    但問題在于,這種需求對(duì)于百度已有的Spark SQL造成了巨大挑戰(zhàn),事實(shí)上Spark SQL無法實(shí)現(xiàn)交互式查詢所要求的性能。為解決這一難題,百度與英特爾合作實(shí)施了Spark平臺(tái)優(yōu)化分析包(OAP)項(xiàng)目合作,使用索引和緩存技術(shù)來加速交互式查詢響應(yīng),推動(dòng)百度BigSQL實(shí)現(xiàn)令人滿意的交互式查詢性能。

    當(dāng)查詢具有非常特定的篩選條件時(shí),OAP可以在符合條件的列上創(chuàng)建索引。通過索引,OAP能夠識(shí)別目標(biāo)行,同時(shí)跳過后端存儲(chǔ)上不必要的數(shù)據(jù)掃描。由于索引文件與原始數(shù)據(jù)文件保持分離,在創(chuàng)建或刪除索引時(shí)均無需重寫原始數(shù)據(jù)文件。

    OAP的實(shí)現(xiàn)方式是通過與列數(shù)據(jù)文件并排創(chuàng)建與存儲(chǔ)完整的B+Tree索引,從而實(shí)現(xiàn)快速的跨越搜索。這有點(diǎn)像我們?nèi)ド虉?chǎng)買東西——比如想買一件襯衫,我們可以直接在商場(chǎng)平面圖中查詢男裝在幾層,再根據(jù)長(zhǎng)褲、襯衫、外套等信息進(jìn)行篩選,這樣就能快速的找到目標(biāo),而不需要逐層逐店去尋找。

    另外一種加快查詢速度的有效方式就是緩存熱點(diǎn)數(shù)據(jù),通過把影響性能的關(guān)鍵數(shù)據(jù)或熱點(diǎn)數(shù)據(jù)緩存到高速的存儲(chǔ)設(shè)備中,比如內(nèi)存中,可以在建立索引的基礎(chǔ)上進(jìn)一步提高查詢性能。基于“最近最少使用(LRU)策略”,當(dāng)緩存達(dá)到最大容量時(shí),那些最近最少使用的數(shù)據(jù)項(xiàng)將被淘汰,為緩存最新數(shù)據(jù)釋放空間。另外,百度 BigSQL 還啟用了一個(gè)高級(jí)緩存管理器,可以主動(dòng)填充熱點(diǎn)列,并清除緩存中不再需要的列。

    當(dāng)然這種清除并非是無限制的。特別是對(duì)于百度這樣規(guī)模的平臺(tái)來說,隨著業(yè)務(wù)的不斷發(fā)展,后臺(tái)的數(shù)據(jù)集規(guī)模日趨龐大,熱點(diǎn)數(shù)據(jù)量勢(shì)必會(huì)超過緩存空間容量,最終導(dǎo)致性能下降。這也就勢(shì)必要求系統(tǒng)緩存足夠大,客戶自然需要采購(gòu)更大容量的內(nèi)存。

    但這并非是每個(gè)客戶都能實(shí)現(xiàn)的。首先,內(nèi)存的價(jià)格非常昂貴,即便是在如今芯片價(jià)格走低的情況下,大容量?jī)?nèi)存的價(jià)格依然如同“天文數(shù)字”。其次,在Spark 環(huán)境中,因?yàn)槊總€(gè)節(jié)點(diǎn)上可配置的總內(nèi)存容量有上限,并不能無限擴(kuò)展;第三,內(nèi)存的優(yōu)勢(shì)在于較高的隨機(jī)訪問帶寬和較低的延遲,而將其用于大量數(shù)據(jù)緩存和順序數(shù)據(jù)的讀取無疑是“大材小用”。正是考慮到上述三大原因,百度將目光轉(zhuǎn)向了英特爾的主打產(chǎn)品——傲騰持久內(nèi)存。

    相對(duì)于傳統(tǒng)內(nèi)存來說,傲騰持久內(nèi)存是一種特殊的存在。雖然在名字中有“內(nèi)存”的字樣,但是它本質(zhì)上還是一種介于內(nèi)存與傳統(tǒng)存儲(chǔ)之間的產(chǎn)品。更值得一提的是,傲騰持久內(nèi)存具備了“內(nèi)存模式”和“應(yīng)用直接訪問模式”兩種運(yùn)行狀態(tài)。當(dāng)處于“內(nèi)存模式”下,傲騰持久內(nèi)存無需重新編寫軟件就可以當(dāng)作內(nèi)存使用,并且在性能上也與內(nèi)存非常接近。

    在“應(yīng)用直接訪問模式”下,經(jīng)過專門改進(jìn)的應(yīng)用程序可從產(chǎn)品固有的持久性中充分獲取價(jià)值并獲得更大的容量。針對(duì)百度需求的特性,這里的傲騰持久內(nèi)存采用了這一模式,以確保應(yīng)用程序能完全決策如何使用設(shè)備空間。

    同時(shí),英特爾還對(duì)OAP進(jìn)行了擴(kuò)展,加入了內(nèi)存管理器插件,并采用了基于傲騰持久內(nèi)存的內(nèi)存管理器分配緩存空間。這樣一來,用戶就可以在傳統(tǒng)內(nèi)存和傲騰持久內(nèi)存之間自由切換,甚至是將兩者共同使用——比如用內(nèi)存緩存索引,而使用傲騰持久內(nèi)存緩存數(shù)據(jù)。

    實(shí)踐也證明了傲騰持久內(nèi)存的有效性。在百度進(jìn)行的、數(shù)據(jù)集大小為1TB的測(cè)試中,相同容量的內(nèi)存與傲騰持久內(nèi)存時(shí),后者的性能與前者非常接近,可以達(dá)到內(nèi)存性能的88.3%。而伴隨著數(shù)據(jù)集容量的提升,當(dāng)數(shù)據(jù)集達(dá)到3T的時(shí)候,內(nèi)存已經(jīng)不足以緩存所有數(shù)據(jù),但是傲騰持久內(nèi)存依然游刃有余,性能反超內(nèi)存高達(dá)6倍之多。

    隨后進(jìn)行的百度線上實(shí)際業(yè)務(wù)的測(cè)試更證明了傲騰持久內(nèi)存的超高性價(jià)比。當(dāng)內(nèi)存與傲騰持久內(nèi)存都被設(shè)置為50%的常用數(shù)據(jù)列時(shí),傲騰持久內(nèi)存的緩存速度僅比內(nèi)存低約12%。而如果考慮到相同成本的情況下,只有傲騰持久內(nèi)存擁有足夠容量來緩存所有熱點(diǎn)數(shù)據(jù),且性能較內(nèi)存高出 22%,同時(shí)避免了30% 的底層系統(tǒng)I/O請(qǐng)求。

    “我們使用來自英特爾的傲騰持久內(nèi)存,在緩存質(zhì)量得到保證的同時(shí),極大地提升了集群的處理能力,獲得明顯的 TCO 收益”,百度資深系統(tǒng)工程師黎世勇如是說。事實(shí)上,借助于英特爾傲騰持久內(nèi)存的加持,百度圖靈集群的工作負(fù)載降低了30%,平均查詢延時(shí)降低了20%,每個(gè)傲騰持久內(nèi)存服務(wù)器實(shí)例Spark/OAP性能提高了50%,而成本僅增加了20%。

    毫無疑問,英特爾傲騰持久內(nèi)存無論是在性價(jià)比還是在緩存容量表現(xiàn)上,都比傳統(tǒng)內(nèi)存更加出色。雖然在低數(shù)據(jù)集容量的時(shí)候性能略有落后,但是傲騰持久內(nèi)存的性價(jià)比依舊突出,尤其是高數(shù)據(jù)集下的大緩存優(yōu)勢(shì)更是無可爭(zhēng)議的行業(yè)領(lǐng)先。

    一直以來,如何實(shí)現(xiàn)數(shù)據(jù)庫應(yīng)用加速是行業(yè)中的難題,特別對(duì)于百度這樣以搜索為核心業(yè)務(wù)的公司來說,更側(cè)重于提升數(shù)據(jù)檢索的應(yīng)用體驗(yàn)。這一次,英特爾借助傲騰持久內(nèi)存提供了更優(yōu)化的查詢方式,將檢索時(shí)間從秒級(jí)降低到了次秒級(jí),在提升用戶體驗(yàn)的同時(shí)也提供了超高的性價(jià)比。

    如今,大數(shù)據(jù)分析已經(jīng)成為了行業(yè)應(yīng)用的主流,特別是國(guó)家所倡導(dǎo)的”新基建“更是將大數(shù)據(jù)中心作為核心應(yīng)用之一。伴隨著近年來全球數(shù)據(jù)規(guī)模呈指數(shù)級(jí)增長(zhǎng),誰能解決企業(yè)的數(shù)據(jù)應(yīng)用需求問題,誰就能把握未來的數(shù)據(jù)時(shí)代。

    按下搜索按鈕的那一刻,你希望多久看到結(jié)果?

    極客網(wǎng)企業(yè)會(huì)員

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2020-08-17
    大數(shù)據(jù),背后離不開這個(gè)核心技術(shù)
    由此看來,大數(shù)據(jù)已經(jīng)影響到我們生活的方方面面,無論是數(shù)據(jù)分析還是數(shù)據(jù)查詢,我們都希望能夠在第一時(shí)間盡快完成,而這除了需要優(yōu)化的軟件與算法支持之外,更需要強(qiáng)大性能的硬件,特別是能夠?qū)?shù)據(jù)庫進(jìn)行加速的硬件

    長(zhǎng)按掃碼 閱讀全文