模擬腦神經(jīng)網(wǎng)絡(luò),探索人腦上億個神經(jīng)元之間是如何連接與工作的,帶來每秒高達(dá)100TB數(shù)據(jù)高吞吐量;腦疾病研究中,通過數(shù)萬份患者數(shù)據(jù)驗證抑郁癥與睡眠治理不佳的腦區(qū)有重合之處;在自動駕駛車輛每天產(chǎn)生了數(shù)十TB數(shù)據(jù)中訓(xùn)練視覺識別算法;天文專家從數(shù)十PB海量數(shù)據(jù)中分析發(fā)現(xiàn)新天體……
如今在科研領(lǐng)域,數(shù)據(jù)正在發(fā)揮著越來越重要的作用。尤其是隨著數(shù)據(jù)采集、存儲等技術(shù)的不斷提升,海量數(shù)據(jù)的出現(xiàn)徹底改變了傳統(tǒng)科研模式。繼實驗科學(xué)、理論科學(xué)、計算科學(xué)之后,基于“數(shù)據(jù)密集型科學(xué)”的科研新范式在大數(shù)據(jù)時代下,受到越來越多科研人員的青睞。
在“數(shù)據(jù)密集型科學(xué)”的科研新范式驅(qū)動下,高校、科研機(jī)構(gòu)加速構(gòu)建人工智能與大數(shù)據(jù)平臺、為不同學(xué)科提供創(chuàng)新基礎(chǔ)設(shè)施成為當(dāng)務(wù)之急。但由于科研聚焦前沿研究,且不同學(xué)科之間存在著很大的差異性,造成對于數(shù)據(jù)的計算、采集、存儲、管理和利用的需求不盡相同,也讓高校的人工智能與大數(shù)據(jù)平臺加速向更高水準(zhǔn)演進(jìn)。
數(shù)據(jù)要素成為科研的驅(qū)動力
科研范式因為大數(shù)據(jù)而迅速改變。
正所謂是“巧婦難為無米之炊”,即便理論再“高明”、算法再先進(jìn),缺乏數(shù)據(jù)的支持,再好的研究設(shè)計都得“半途而廢”。如果科研數(shù)據(jù)越多,研究人員就可以利用大量數(shù)據(jù)的相關(guān)性、可取代因果關(guān)系和理論與模型,基于海量數(shù)據(jù)間的相關(guān)性驗證更多研究想法和理論,獲得更多新知識和新發(fā)現(xiàn)。
例如,在當(dāng)前非常熱門的類腦科學(xué)研究,有一個重要的方向就是多模態(tài)多尺度數(shù)據(jù)分析理論與應(yīng)用。首先建立腦成像中心,全套磁共振成像設(shè)備對小動物或者人體進(jìn)行腦成像,不斷采集和分析腦科學(xué)數(shù)據(jù),構(gòu)建起多模態(tài)多尺度腦數(shù)據(jù)庫;然后,在利用模式識別、深度學(xué)習(xí)等類腦智能方法尋找基因、腦影像和認(rèn)知功能的診斷指標(biāo),以揭示腦疾病致病機(jī)制、提升腦疾病臨床診斷以及藥物療效評估的準(zhǔn)確性和效率。
“目前高校數(shù)據(jù)量增長的確非常大,很多科研領(lǐng)域?qū)τ诟鞣N科研數(shù)據(jù)的收集也非常重視。”復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院副院長薛向陽教授如是說。
如何理解數(shù)據(jù)密集型科學(xué)與之前計算科學(xué)之間的區(qū)別,兩種科研范式似乎都需要通過大量的計算、數(shù)據(jù)來完成科學(xué)研究。但計算科學(xué)通常是先提出可行理論,再搜集數(shù)據(jù),之后通過計算仿真進(jìn)行驗證;而數(shù)據(jù)密集型科學(xué)則是先通過采集大量的數(shù)據(jù),再通過計算與分析獲得新知識和新發(fā)現(xiàn)。
“數(shù)據(jù)密集型科學(xué)”的科研新范式核心挑戰(zhàn)還在于數(shù)據(jù)??蒲袛?shù)據(jù)的數(shù)據(jù)密集型,具有不可重復(fù)性、高度不確定性、高維、計算高度復(fù)雜等特征。如今越來越多科研人員,面臨的不是缺少數(shù)據(jù)的難題,而是海量數(shù)據(jù)環(huán)境下如何存儲、管理和利用數(shù)據(jù),這對于科研數(shù)據(jù)底座的存儲在容量、性能、擴(kuò)展和管理等方面提出極高的要求。
薛向陽教授介紹:“我們正在建設(shè)一個人工智能與大數(shù)據(jù)的開放共享平臺,就是希望為科研工作者解決數(shù)據(jù)存儲、管理和利用等方面的挑戰(zhàn),讓數(shù)據(jù)更好地為科研所用。”
科研新范式不應(yīng)被存儲所束縛
與其他行業(yè)相比,高校與科研機(jī)構(gòu)在建立人工智能與大數(shù)據(jù)平臺時,對于存儲的要求更高,往往需要存儲這個科研數(shù)據(jù)基礎(chǔ)設(shè)施有效解決數(shù)據(jù)存不下、管不好、用不順等挑戰(zhàn)。
具體來看,如今的高校與科研機(jī)構(gòu)普遍都在加速向“數(shù)據(jù)密集型科學(xué)”的科研新范式轉(zhuǎn)變,多學(xué)科、交叉研究的現(xiàn)象很常見,都重視科研數(shù)據(jù)的采集與存儲,直接導(dǎo)致了底層存儲的巨大壓力。
以腦科學(xué)與類腦研究為例,其所產(chǎn)生的數(shù)據(jù)主要以影像大文件為主,并包含了大量臨時小文件數(shù)據(jù)。由于需要存儲的數(shù)據(jù)量極大,并且始終保持著很高的增長速度,很多科研機(jī)構(gòu)之前采用傳統(tǒng)縱向擴(kuò)展的存儲很快出現(xiàn)明顯瓶頸;也有一些天文研究機(jī)構(gòu),一開始寄希望于通過公有云的方式來保存數(shù)據(jù),但是隨著數(shù)據(jù)不斷積累,通過公有云的方式不僅帶來了額外的帶寬成本,還存在效率等方面挑戰(zhàn)。
“當(dāng)前很多高校的研究都是基于大數(shù)據(jù),首先最關(guān)鍵的是將數(shù)據(jù)存下來。”薛向陽教授直言道。
除了將數(shù)據(jù)很好地存下來,高校與科研機(jī)構(gòu)大多都渴望將數(shù)據(jù)流動與共享起來,但現(xiàn)實情況卻是數(shù)據(jù)管理粗放、不夠精細(xì)化,數(shù)據(jù)共享低效、管理困難。比如在高校中,經(jīng)常會遇到一份科研數(shù)據(jù)同時被多個課題組所使用,每個課題組都需要拷貝一份數(shù)據(jù),在不斷科研過程中,又各自產(chǎn)生了大量不同的數(shù)據(jù),最后衍生出多種版本,讓數(shù)據(jù)管理的復(fù)雜度大幅升上,降低了數(shù)據(jù)功效與流動的效率。
另外,因為學(xué)科的不同,對于存儲的性能、功能要求也是千差萬別,沒有強(qiáng)大的存儲做支撐,往往讓科研人員用不順。例如,從事機(jī)器視覺研究的人員,對于存儲空間極度渴求;模擬腦神經(jīng)網(wǎng)絡(luò)相關(guān)的研究,當(dāng)前只能模擬不到5%,要想100%模擬需要100 TB/s的通量,則對于數(shù)據(jù)存儲性能和帶寬要求極高,且挑戰(zhàn)巨大。薛向陽教授表示:“高校應(yīng)用偏科學(xué)研究,很多應(yīng)用都較為超前,對于存儲功能層面一直會產(chǎn)生新需求和新挑戰(zhàn)。”
“一直以來,浪潮都跟國內(nèi)外多所高校進(jìn)行緊密合作。高??蒲蓄I(lǐng)域的確走在數(shù)據(jù)存儲場景應(yīng)用的最前沿?!崩顺贝鎯Ξa(chǎn)品線副總經(jīng)理周川如是說,“浪潮存儲有一些新功能、新思路都是在與高校、科研機(jī)構(gòu)的深入合作中產(chǎn)生。”
例如,針對高校多個學(xué)科與多個課題組共享、使用、管理數(shù)據(jù)會產(chǎn)生多份數(shù)據(jù)的難題,浪潮存儲為用戶定制的軟拷貝功能,在元數(shù)據(jù)和索引上做變更,用戶視角是多份不同的文件,但底層則是共同的存儲空間,只有數(shù)據(jù)修改和寫入才會增加新的存儲空間,實現(xiàn)多份數(shù)據(jù)極速拷貝和使用,還大幅降低存儲容量開銷和管理成本,讓數(shù)據(jù)共享、使用變得更加高效。
浪潮存儲資深架構(gòu)師葉毓睿介紹:“軟拷貝功能是浪潮存儲在科研場景實踐的一個小注腳,它帶來了兩大直接好處:一是數(shù)據(jù)共享加速,第二則是提升存儲效率?!?/p>
新存儲讓科研新范式步入快車道
今年初,國家正式提出加快數(shù)據(jù)中心、5G等新型基礎(chǔ)設(shè)施的建設(shè)進(jìn)度。國家發(fā)改委之后則首次指出,創(chuàng)新基礎(chǔ)設(shè)施為新基建三大范圍之一,包括科技基礎(chǔ)設(shè)施、科教基礎(chǔ)設(shè)施等,重點支撐科學(xué)研究、技術(shù)開發(fā)等工作。隨著中國高??蒲匈M(fèi)用投入逐年增加,多個科研領(lǐng)域取得諸多突破與成果,創(chuàng)新基礎(chǔ)設(shè)施的重要性也日漸突出。
為此,浪潮存儲今年提出新存儲之道,在“云存智用、運(yùn)籌新數(shù)據(jù)”理念的基礎(chǔ)上,推進(jìn)“存儲即平臺”戰(zhàn)略,打造存儲的極致性能、容量、管理等七大核心能力,為創(chuàng)新基礎(chǔ)設(shè)施構(gòu)建堅實的數(shù)據(jù)底座,讓科研新范式進(jìn)入到發(fā)展的快車道。
例如,在一些注重數(shù)據(jù)存儲性能的科研場景,浪潮存儲專門為高頻訪問的元數(shù)據(jù)和日志數(shù)據(jù)“開小灶”,采用SSD盤承載元數(shù)據(jù)和日志數(shù)據(jù)顯著提升熱點數(shù)據(jù)訪問速度,并針對不同數(shù)據(jù)類型的場景進(jìn)行優(yōu)化,讓每種場景都能夠快速訪問、使用數(shù)據(jù)。
又如,針對高校與科研機(jī)構(gòu)運(yùn)維人員較少、專業(yè)度有限的情況,浪潮存儲基于智能存儲管理平臺InView,將人工智能技術(shù)融入存儲系統(tǒng),對存儲系統(tǒng)進(jìn)行集中管理、智能監(jiān)測和故障預(yù)測報警,大幅降低科研機(jī)構(gòu)日常的運(yùn)維工作,并讓運(yùn)維走向自動化和智能化,從而更好地保障各種科研項目的順利進(jìn)行。
不僅如此,針對高校科研領(lǐng)域?qū)τ跀?shù)據(jù)存儲需求趨勢,浪潮存儲積極調(diào)研與深入溝通,在新存儲之道中聚焦新架構(gòu)、新介質(zhì)和新能力的打造,在EB級容量、億級IOPS、TB級帶寬、7個9可靠性、存儲自治等關(guān)鍵新能力上提前布局,為科研的數(shù)據(jù)底座“厲兵秣馬”,提前做好準(zhǔn)備。
總體來看,浪潮存儲近年來為構(gòu)建強(qiáng)大的科研新基建不斷“加碼”,除了復(fù)旦大學(xué)類腦智能科學(xué)與技術(shù)研究院、清華大學(xué)RUSH、華中科大蘇州腦科學(xué)研究院、中國天眼等一系列明星科研項目中積累了豐富的實踐經(jīng)驗外,還在科研領(lǐng)域打通用戶需求洞察、場景功能適配與前沿技術(shù)創(chuàng)新,形成良性循環(huán),讓科研新范式加速步入發(fā)展的快車道。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 一半是產(chǎn)品,一半是服務(wù),華為品牌帶給消費(fèi)者的有贊嘆更有溫暖
- 在人群里,看見「鯤鵬開發(fā)者」
- 游戲體驗天花板,一加 Ace 5 系列售價 2299 元起
- 為創(chuàng)意和管理提效,新廣告投放(3.0)驅(qū)動消費(fèi)品商家高效增長
- 榮耀Magic7系列全面升級大王影像,首發(fā)AI超級長焦拍遠(yuǎn)更清晰
- 2024過去了,留下十個科技記憶
- 年貨節(jié)如何大爆單?別錯過巨量千川這三波紅利
- 美國無人機(jī)禁令升級?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實力
- 自動駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。