近日,昇思MindSpore與昌平實(shí)驗(yàn)室、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)和化學(xué)與分子工程學(xué)院、深圳灣實(shí)驗(yàn)室高毅勤教授課題組及鵬城實(shí)驗(yàn)室陳杰團(tuán)隊(duì)基于全場(chǎng)景AI框架昇思MindSpore實(shí)現(xiàn)AlphaFold2蛋白質(zhì)結(jié)構(gòu)訓(xùn)練。繼2021年11月發(fā)布推理工具后,本次訓(xùn)練意味著國產(chǎn)AI框架具備了強(qiáng)大的AI for Science底層軟件能力,同時(shí)也為相關(guān)科研工作者提供新的選擇。該聯(lián)合工作依托鵬城云腦II 昇騰AI 集群進(jìn)行,單步迭代性能提升超過60%,TM-score達(dá)85分(國際權(quán)威評(píng)測(cè)數(shù)據(jù)集CASP14)。相關(guān)訓(xùn)練代碼已在昇思MindSpore社區(qū)開源,后續(xù)也會(huì)在Openl啟智社區(qū)進(jìn)行開源并定期擴(kuò)展與維護(hù)。
圖.1 T1052-D1 預(yù)測(cè)結(jié)構(gòu)圖(左)CASP14 87 targets TM-score 對(duì)比(右)
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是獲得蛋白質(zhì)功能結(jié)構(gòu)和構(gòu)象的過程,近半個(gè)世紀(jì)以來,這一問題一直被譽(yù)為“21世紀(jì)的生物物理學(xué)”最重要的課題之一。在過去,因蛋白質(zhì)構(gòu)象數(shù)量巨大,計(jì)算過程復(fù)雜,通過AI來對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè)一直未能取得實(shí)質(zhì)性突破,獲取蛋白質(zhì)空間結(jié)構(gòu)的方法仍然以冷凍電鏡、X-ray等實(shí)驗(yàn)技術(shù)為主,單個(gè)蛋白質(zhì)的觀測(cè)成本高達(dá)數(shù)月及數(shù)百萬人民幣。直至AlphaFold2的出現(xiàn),使得這一問題迎來新的曙光。AlphaFold2憑借其接近實(shí)驗(yàn)精度的成績?nèi)〉肅ASP14蛋白質(zhì)空間結(jié)構(gòu)預(yù)測(cè)比賽的榜首,這一成就也被Nature譽(yù)為“前所未有的進(jìn)步”。
2021年7月DeepMind宣布對(duì)AlphaFold2的推理代碼進(jìn)行開源,昇思與高毅勤課題組第一時(shí)間對(duì)其進(jìn)行了復(fù)現(xiàn)及優(yōu)化,并于同年11月開源了基于昇思MindSpore的推理工具,效率同比提升2-3倍。由于開源范圍僅限推理,相關(guān)從業(yè)者無法基于此進(jìn)行優(yōu)化,因此許多團(tuán)隊(duì)積極地投入訓(xùn)練過程的復(fù)現(xiàn)。AlphaFold2模型本身存在內(nèi)存需求大,數(shù)據(jù)處理繁瑣,控制編譯復(fù)雜等特點(diǎn),對(duì)基礎(chǔ)AI框架存在著巨大挑戰(zhàn)。
近期,昇思MindSpore聯(lián)合高毅勤課題組、鵬城實(shí)驗(yàn)室陳杰團(tuán)隊(duì)全面打通AlphaFold2的訓(xùn)練。采用昇騰基礎(chǔ)軟硬件平臺(tái)后,在混合精度下,單步迭代時(shí)間由20秒縮短到12秒,性能提升超過60%。依托昇思MindSpore內(nèi)存復(fù)用能力, 訓(xùn)練序列長度由384提升至512。
為了盡可能客觀地評(píng)估訓(xùn)練結(jié)果,昇思MindSpore選取了AlphaFold2論文附錄中提到的87條驗(yàn)證集進(jìn)行驗(yàn)證,平均TM-score達(dá)到85分,基本持平AlphaFold2。
昇思MindSpore對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)訓(xùn)練推理的支持填補(bǔ)了國產(chǎn)AI軟硬件的空白。在訓(xùn)練精度接近AlphaFold2的基礎(chǔ)上,昇思MindSpore將在算法、規(guī)模和軟硬件支持等方向上持續(xù)改進(jìn),并計(jì)劃開放共享訓(xùn)練數(shù)據(jù)集供同仁使用。昇思MindSpore也期望與更多學(xué)術(shù)界和工業(yè)界伙伴合作,進(jìn)一步提升模型精度、擴(kuò)展應(yīng)用場(chǎng)景。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )