美國(guó)國(guó)立衛(wèi)生研究院NIH取消了不準(zhǔn)將其dbGap數(shù)據(jù)庫(kù)中的基因組信息上傳到云端的規(guī)定。這一規(guī)定設(shè)立于2007年,它的取消無(wú)疑為科研工作者存儲(chǔ)和分析基因組信息提供了便利。
基因組學(xué)的科研人員正越來(lái)越多地使用云計(jì)算服務(wù),谷歌的云計(jì)算服務(wù)就是其中之一
今年三月基因組學(xué)領(lǐng)域的科研工作者們迎來(lái)了一件大喜事:美國(guó)國(guó)立衛(wèi)生研究院NIH取消了不準(zhǔn)將其dbGap數(shù)據(jù)庫(kù)中的基因組信息上傳到云端的規(guī)定。這一規(guī)定設(shè)立于2007年,它的取消無(wú)疑為科研工作者存儲(chǔ)和分析基因組信息提供了便利。
云計(jì)算服務(wù)通過(guò)按需付費(fèi)模式提供海量的存儲(chǔ)和計(jì)算資源。使用云服務(wù)要通過(guò)互聯(lián)網(wǎng),而且計(jì)算資源是共享的,這就引起了很多科研資助機(jī)構(gòu)的疑慮,他們擔(dān)心云計(jì)算的使用會(huì)泄露樣本提供者的隱私。NIH取消不準(zhǔn)上傳到云端的規(guī)定是因?yàn)榛蚪M學(xué)研究中正面臨著現(xiàn)實(shí)問(wèn)題:如何獲取數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)。這已經(jīng)阻礙了科研人員的工作,尤其是當(dāng)研究工作涉及到現(xiàn)有的數(shù)據(jù)信息時(shí)。
為了充分利用云計(jì)算技術(shù)所提供的便利,我們敦促NIH和其他科研資助機(jī)構(gòu)在常用的云平臺(tái)中免費(fèi)提供基因組數(shù)據(jù)。這樣全球數(shù)以千計(jì)的科研人員就不用浪費(fèi)自己的時(shí)間和金錢(qián)將數(shù)據(jù)轉(zhuǎn)移到自己熟悉的云平臺(tái),只要從這個(gè)統(tǒng)一的數(shù)據(jù)平臺(tái)進(jìn)行存儲(chǔ)和分析就可以了。
大數(shù)據(jù)
隨著基因組排序技術(shù)的提高,大型基因數(shù)據(jù)庫(kù)中的信息都是以PB計(jì)的(1PB=10^15字節(jié))。比如國(guó)際癌癥基因組聯(lián)盟ICGC的數(shù)據(jù)庫(kù)中不到五年時(shí)間就積累了從17個(gè)國(guó)家收集而來(lái)的超過(guò)2PB數(shù)據(jù),這相當(dāng)于50萬(wàn)張DVD的容量。
按一般大學(xué)的網(wǎng)速來(lái)算,將這些數(shù)據(jù)轉(zhuǎn)移到研究人員自己的內(nèi)部網(wǎng)絡(luò)中需要花超過(guò)15個(gè)月。先不說(shuō)處理,就單單存儲(chǔ)這些數(shù)據(jù)的硬件就要花大概100萬(wàn)美元。
云計(jì)算為我們提供了計(jì)算資源上的彈性,研究人員可以需要多少計(jì)算資源就有多少計(jì)算資源。分析完成之后只需要為計(jì)算分析的一小段時(shí)間付費(fèi)??蒲腥藛T之間也可以更好地進(jìn)行分工合作,在虛擬機(jī)上就能輕松地分享數(shù)據(jù)和計(jì)算方法。以前要花上幾個(gè)月的基因組數(shù)據(jù)分析現(xiàn)在可能只需要幾天或者幾周。(見(jiàn)下圖)
時(shí)至今日,云服務(wù)的安全性已經(jīng)勝過(guò)了研究機(jī)構(gòu)自己的數(shù)據(jù)中心。提供云服務(wù)的既有亞馬遜、谷歌和微軟這樣的商業(yè)企業(yè),也有專(zhuān)注于基因組研究的小型公司,比如加利福尼亞的Annai Systems和英國(guó)劍橋郡的歐洲生物信息研究所。這些提供商采取加密和防火墻或密??ǖ确绞絹?lái)控制數(shù)據(jù)的使用權(quán),并為數(shù)據(jù)所有者提供監(jiān)測(cè)數(shù)據(jù)使用的工具。
一些人類(lèi)基因組學(xué)的主要資助機(jī)構(gòu)還是對(duì)云計(jì)算持謹(jǐn)慎態(tài)度。如一些歐洲的資助機(jī)構(gòu)就建議將基因組數(shù)據(jù)控制在自己的管轄范圍內(nèi)以遵守歐洲的隱私法律。但我們預(yù)計(jì),基于云計(jì)算的經(jīng)濟(jì)性、靈活性、可靠性和安全性,未來(lái)幾個(gè)月肯定會(huì)有向云平臺(tái)的大規(guī)模遷移潮。NIH的決定無(wú)疑會(huì)加速這一過(guò)程,我們?cè)诖藢?duì)NIH表示感謝。
現(xiàn)在讓我們來(lái)看看如何在云平臺(tái)用最少的花銷(xiāo)達(dá)到最高的效率。
訪問(wèn)控制
科研人員想要從dbGAP等數(shù)據(jù)庫(kù)中取得人類(lèi)基因組數(shù)據(jù),必須要經(jīng)過(guò)數(shù)據(jù)訪問(wèn)委員會(huì)的批準(zhǔn)?,F(xiàn)在如果有不同的科研人員想要在云平臺(tái)上使用同一數(shù)據(jù)集,他們各自必須得到相應(yīng)的數(shù)據(jù)訪問(wèn)委員會(huì)批準(zhǔn)。然后要將數(shù)據(jù)復(fù)制到自己的云平臺(tái)才能開(kāi)始工作。
所有這些科研人員都必須等著數(shù)據(jù)復(fù)制,也必須向自己使用的云平臺(tái)支付費(fèi)用。如果100組科研人員都這么做,那么這個(gè)過(guò)程很明顯浪費(fèi)了科研人員很多的時(shí)間和金錢(qián)。就算是可以隨便把數(shù)據(jù)復(fù)制到自己的云平臺(tái),大多數(shù)科研人員恐怕也負(fù)擔(dān)不起這一過(guò)程需要的時(shí)間和花銷(xiāo)。
有一個(gè)更好的方式可以解決這個(gè)問(wèn)題:相關(guān)的資助機(jī)構(gòu)可以要求將主要的基因組數(shù)據(jù)集上傳到常用的云平臺(tái)中并支付存儲(chǔ)的費(fèi)用,這樣所有數(shù)據(jù)只需要復(fù)制一次而且科研人員自己只需要支付進(jìn)行分析時(shí)的一點(diǎn)點(diǎn)開(kāi)銷(xiāo)。
現(xiàn)在不少云計(jì)算提供商為科研數(shù)據(jù)提供極低價(jià)格的存儲(chǔ)甚至完全免費(fèi)以鼓勵(lì)科研人員使用自家的云服務(wù)。亞馬遜AWS為千人基因組計(jì)劃提供免費(fèi)存儲(chǔ)(有超過(guò)200TB數(shù)據(jù)),Annai Systems也為一部分ICGC數(shù)據(jù)集提供免費(fèi)存儲(chǔ)。
假設(shè)遷移到云平臺(tái)之后現(xiàn)在的數(shù)據(jù)庫(kù)提供者和數(shù)據(jù)訪問(wèn)委員會(huì)的設(shè)置保持不變的話,在基因組云計(jì)算的范圍內(nèi)甚至可能誕生一個(gè)市場(chǎng)。比如提供了有價(jià)值數(shù)據(jù)的基因生物學(xué)家可以獲得云計(jì)算平臺(tái)的分析時(shí)間作為獎(jiǎng)勵(lì)。計(jì)算機(jī)科學(xué)家如果提供了可以提高分析效率的程序,也可以在別人運(yùn)行它的程序時(shí)得到一定的回報(bào)。
經(jīng)過(guò)一段時(shí)間這便會(huì)形成一個(gè)良性循環(huán)。這些大的數(shù)據(jù)集融合在一起可以令科研人員更快發(fā)現(xiàn)基因與疾病之間的聯(lián)系,這反過(guò)來(lái)會(huì)鼓勵(lì)更多人分享數(shù)據(jù)集或開(kāi)發(fā)更強(qiáng)大的軟件。
這種方式也有一定的風(fēng)險(xiǎn)。如果把所有數(shù)據(jù)都集中到同一個(gè)云計(jì)算平臺(tái),此云計(jì)算平臺(tái)就會(huì)因?yàn)閴艛喽醿r(jià),而這些成本就會(huì)轉(zhuǎn)嫁到科研經(jīng)費(fèi)中。為了避免這種情況發(fā)生,應(yīng)該將重要的數(shù)據(jù)集放在多個(gè)云平臺(tái)上。這也可以解決之前提到的歐洲資助機(jī)構(gòu)的擔(dān)憂,只要將歐洲所貢獻(xiàn)的數(shù)據(jù)限制在歐洲的云服務(wù)提供商即可。
基因組學(xué)標(biāo)準(zhǔn)
當(dāng)然要達(dá)到我們最終的目的還需要很多技術(shù)和法律方面的努力。比如現(xiàn)在囊性纖維變性研究人員完全不能通過(guò)軟件在dbGap數(shù)據(jù)庫(kù)中搜索病患的基因序列。通過(guò)系統(tǒng)性地進(jìn)行數(shù)據(jù)標(biāo)記,例如樣本的來(lái)源將有助于解決這個(gè)問(wèn)題。從2001年開(kāi)始,期刊發(fā)行商們達(dá)成了一個(gè)共識(shí):只接受符合MIAME標(biāo)準(zhǔn)的RNA微陣列研究。對(duì)于基因組數(shù)據(jù),我們也需要一個(gè)類(lèi)似MIAME的標(biāo)準(zhǔn)。
保護(hù)云平臺(tái)之上的敏感數(shù)據(jù)需要可靠的協(xié)議以及賦予和解除權(quán)限的手段。短期內(nèi)各個(gè)項(xiàng)目的數(shù)據(jù)訪問(wèn)委員會(huì)仍應(yīng)對(duì)數(shù)據(jù)的訪問(wèn)進(jìn)行把關(guān),但最終保留幾個(gè)可以掌控云端所有數(shù)據(jù)庫(kù)的訪問(wèn)委員會(huì)將會(huì)是更好的方案。
在法律層面則必須劃分清楚資助機(jī)構(gòu)、數(shù)據(jù)監(jiān)管部門(mén)、云服務(wù)提供商以及使用基因組數(shù)據(jù)的科研人員各自的角色和責(zé)任。比如說(shuō)有人在微博上發(fā)基因組的信息,這幾個(gè)角色中誰(shuí)應(yīng)該負(fù)責(zé)任?為了解決這一問(wèn)題,全球基因組學(xué)與健康聯(lián)盟已經(jīng)制定了一個(gè)共享基因組及健康相關(guān)數(shù)據(jù)的責(zé)任框架。
與此同時(shí),NIH以及其他資助機(jī)構(gòu)在借基因組學(xué)的點(diǎn)子在討論其他公共平臺(tái)的可能性。NIH下屬的國(guó)立癌癥研究所已經(jīng)開(kāi)展了幾個(gè)在云平臺(tái)進(jìn)行基因組學(xué)數(shù)據(jù)的共享和分析的實(shí)驗(yàn)項(xiàng)目。
神經(jīng)學(xué)和流行病學(xué)這樣的學(xué)科與基因組學(xué)一樣面臨著數(shù)據(jù)方面的問(wèn)題。如果能正確地使用云計(jì)算,不光基因組學(xué),連這些學(xué)科的研究人員也將能夠受益。
英文原文:Data analysis: Create a cloud commons?via:csdn?譯者/劉旭坤
End.
- 科技圈一周大事件:蘋(píng)果發(fā)布iPhone 16e,華為造車(chē)再起航,科技熱點(diǎn)一網(wǎng)打盡!
- 小米汽車(chē)App上架小米SU7 Ultra,提前小訂搶先體驗(yàn),優(yōu)先排產(chǎn)等你來(lái)
- 2025年「38節(jié)」新玩法揭秘:阿里媽媽破解購(gòu)物節(jié)密碼,理性消費(fèi)新思路
- 京東外賣(mài)瘋狂擴(kuò)張:地推力量崛起,騎手不再裸奔,新篇章開(kāi)啟
- 外賣(mài)市場(chǎng)新變革:美團(tuán)、餓了么、京東聯(lián)手打造全新競(jìng)爭(zhēng)格局
- 小鵬匯天“陸地航母”冬季測(cè)試揭秘:驗(yàn)收前準(zhǔn)備就緒,探索飛行汽車(chē)新紀(jì)元
- 小米YU7智駕狀態(tài)下車(chē)尾亮起小藍(lán)燈:科技與時(shí)尚的完美結(jié)合
- 寶馬Mini暫停電動(dòng)化轉(zhuǎn)型計(jì)劃:轉(zhuǎn)型按下暫停鍵,投資6億英鎊擱置
- 索尼超越夏普成日本市值第二大公司,僅次于豐田汽車(chē),未來(lái)前景可期
- 英特爾18A工藝躍進(jìn),上半年流片揭秘:工藝革新能否引領(lǐng)新一輪芯片革命?
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。