一種新型深度學(xué)習(xí)模型ProtGPS能預(yù)測蛋白質(zhì)在細胞內(nèi)的定位,揭示了調(diào)控生物組織隱藏的分子密碼,為藥物設(shè)計和發(fā)現(xiàn)提供了強大的工具。
ProtGPS預(yù)測蛋白質(zhì)(綠色點)的定位,無論是在其正常和致病突變形式。
一種新型深度學(xué)習(xí)模型現(xiàn)在可以預(yù)測蛋白質(zhì)如何在細胞內(nèi)自我排列。該模型揭示了塑造生物組織隱藏的分子密碼,為我們對生命的理解增加了新的復(fù)雜維度,并為藥物設(shè)計和發(fā)現(xiàn)提供了一個強大的生物技術(shù)工具。
以前的生物學(xué)人工智能系統(tǒng),如獲得諾貝爾獎的AlphaFold,都側(cè)重于預(yù)測蛋白質(zhì)結(jié)構(gòu)。但是,這個名為ProtGPS的新系統(tǒng),不僅能讓科學(xué)家預(yù)測蛋白質(zhì)的構(gòu)建方式,還能預(yù)測它在細胞內(nèi)的位置。它還賦予科學(xué)家設(shè)計具有明確分布的蛋白質(zhì)的能力,并能以外科手術(shù)般的精確度將它們引導(dǎo)到細胞的特定位置。
“了解蛋白質(zhì)的去向與了解它的折疊方式完全互補,”馬薩諸塞州劍橋市懷特海德生物醫(yī)學(xué)研究所的化學(xué)生物學(xué)家Henry Kilgore說,他是這項研究的共同負責人。這兩種特性共同塑造了蛋白質(zhì)在細胞內(nèi)的功能和相互作用。他表示,這些見解——以及促成這些見解的機器學(xué)習(xí)工具——“將對藥物開發(fā)項目產(chǎn)生重大影響”。
Kilgore和他的同事在2月6日發(fā)表在《科學(xué)》雜志上的一篇論文中描述了這種新工具。
將蛋白質(zhì)放在細胞地圖上
在過去的幾年里,像AlphaFold這樣的人工智能工具通過預(yù)測蛋白質(zhì)形狀,徹底改變了結(jié)構(gòu)生物學(xué)——就像宜家家具附帶的說明書一樣,展示了如何組裝椅子或床。但是,事實證明,僅僅知道蛋白質(zhì)的結(jié)構(gòu)不足以理解其功能。ProtGPS通過確定每件分子“家具”在細胞開放式內(nèi)部的哪個位置,填補了這一缺失的部分。
一些蛋白質(zhì)有明確的目的地。幾十年來,研究人員已經(jīng)知道,前往細胞核或線粒體等位置的蛋白質(zhì)——這些結(jié)構(gòu)被膜包圍,與細胞其他部分隔開——攜帶著引導(dǎo)它們的短信號標簽。
但是,細胞的大部分是一個開放的環(huán)境,蛋白質(zhì)依靠更微妙的線索將自己分類成所謂的生物分子凝聚物——動態(tài)的、類似液體的簇,有助于調(diào)節(jié)基因活性,管理細胞應(yīng)激,并導(dǎo)致疾病。正如一張舒適的扶手椅可能自然地適合閱讀角一樣,蛋白質(zhì)遵循內(nèi)在的分子定位規(guī)則,引導(dǎo)它們到適合特定功能的專門凝聚物中。
ProtGPS現(xiàn)在已經(jīng)開始解碼這些規(guī)則,揭示了構(gòu)成所有蛋白質(zhì)骨架的氨基酸序列中的隱藏特征——內(nèi)在的分類線索,決定蛋白質(zhì)是否以及在細胞不同凝聚物中的哪個位置定位。
“我們的模型正在學(xué)習(xí)這些定位特征,”麻省理工學(xué)院的機器學(xué)習(xí)科學(xué)家、共同作者Itamar Chinn說。“我們可以利用這些特征來制造具有我們想要的定位的新蛋白質(zhì)。”
ProtGPS使用機器學(xué)習(xí)框架來預(yù)測冷凝物隔室中的蛋白質(zhì)定位。
教AI學(xué)習(xí)蛋白質(zhì)的語言
ProtGPS就是所謂的蛋白質(zhì)語言模型。它的工作方式很像OpenAI的ChatGPT或Anthropic的Claude等大型語言模型,根據(jù)學(xué)習(xí)到的模式預(yù)測序列。但是,ProtGPS處理的不是文本或語音,而是蛋白質(zhì),蛋白質(zhì)以字母串的形式表示,每個字母對應(yīng)于20種氨基酸構(gòu)建模塊之一——L代表亮氨酸,S代表絲氨酸,等等。
Kilgore、Chinn和他們的同事使用名為ESM的深度學(xué)習(xí)框架構(gòu)建了該模型,ESM最初由Meta開發(fā),用于預(yù)測蛋白質(zhì)的結(jié)構(gòu)、功能和特性。
ESM是進化規(guī)模建模的縮寫,與AlphaFold一樣,也從蛋白質(zhì)序列中提取有意義的模式。但是,Meta的模型沒有像AlphaFold那樣使用物理學(xué)來預(yù)測精確的原子級結(jié)構(gòu),而是依賴于基于序列的學(xué)習(xí),而沒有復(fù)雜的3D計算,這使得它在分析大型數(shù)據(jù)集時速度更快,可擴展性更強。(上個月,推出了一個升級版的ESM,功能得到了改進。)
Kilgore和Chinn的團隊使用ESM的架構(gòu)來解碼嵌入在氨基酸序列中的神秘信號。研究人員調(diào)整和改進了該工具,既可以預(yù)測蛋白質(zhì)的組裝位置,又可以設(shè)計新型蛋白質(zhì)——這些蛋白質(zhì)在自然界中不存在,但可以通過精確的凝聚物靶向特性進行工程改造。
就這樣,ProtGPS誕生了。研究人員用近5000種已知定位于12個不同凝聚物隔室之一的人類蛋白質(zhì)訓(xùn)練了該模型。然后,他們在獨立的數(shù)據(jù)集上測試了ProtGPS,發(fā)現(xiàn)它可以準確地將蛋白質(zhì)放在細胞的正確部分。
區(qū)室化的神秘密碼
某些物理和化學(xué)特性,如蛋白質(zhì)的電荷和疏水性,似乎在事物最終在細胞中的位置發(fā)揮了作用。但是,正如機器學(xué)習(xí)模型經(jīng)常出現(xiàn)的情況一樣,ProtGPS預(yù)測背后的確切原因——以及,通過擴展,選擇性分布背后的生物學(xué)原理——仍然很大程度上是一個謎。
但這并不是說研究人員沒有試圖將其分開。他們仔細研究了模型的預(yù)測,尋找可能解釋其分類規(guī)則的清晰序列模式或生化特性?!皼]有什么明顯的真正顯現(xiàn)出來,”麻省理工學(xué)院的計算生物學(xué)家、共同作者Peter Mikhael說。
這種黑匣子不透明性是人工智能中一個熟悉的挑戰(zhàn)。語言模型本質(zhì)上擅長將來自許多不同特征和上下文信號的貢獻結(jié)合在一起,使它們能夠檢測到人類無法立即看到的模式?!耙虼?,ProtGPS可以提取即使是經(jīng)驗豐富的生物學(xué)家也很難定義的定位線索,這也就不足為奇了,”曾幫助開發(fā)該模型的麻省理工學(xué)院機器學(xué)習(xí)科學(xué)家Ilan Mitnikov說。
“如果規(guī)則很簡單,人們早就弄清楚了,”Mitnikov說。
工程改造蛋白質(zhì),預(yù)測疾病
即使沒有完全理解是什么控制著蛋白質(zhì)的細胞目的地,研究人員也表明,ProtGPS可以用來創(chuàng)建具有精心調(diào)整的定位特性的蛋白質(zhì)。該工具還被證明能夠預(yù)測與疾病相關(guān)的突變?nèi)绾纹茐牡鞍踪|(zhì)區(qū)室化,從而揭示癌癥和發(fā)育障礙等疾病背后的分子機制。
Dewpoint Therapeutics是一家由該研究的作者之一、懷特海德生物學(xué)家Richard Young共同創(chuàng)立的生物技術(shù)公司,現(xiàn)在計劃將ProtGPS整合到其藥物發(fā)現(xiàn)工作中。首席科學(xué)官Isaac Klein稱該工具為識別藥物靶點和設(shè)計新療法的“游戲規(guī)則改變者”。(Young、Kilgore和麻省理工學(xué)院計算機科學(xué)家Regina Barzilay也參與了這項研究,他們都在Dewpoint擔任咨詢或顧問角色。)
其他科學(xué)家也看到了該工具的潛力,包括劍橋大學(xué)的生物物理學(xué)家Tuomas Knowles,他同時也是Transition Bio的首席技術(shù)官,該公司是另一家專注于針對凝聚物靶點進行藥物發(fā)現(xiàn)的公司。“特別令人興奮的是,這篇論文進一步證明,存在非常特定的序列特征,控制著活細胞中蛋白質(zhì)的定位和分配到凝聚物中,”Knowles說,他沒有參與這項研究?!按送?,這為影響和控制蛋白質(zhì)定位提供了新的機會——并有可能糾正錯誤定位,這是許多疾病的根源,”他補充道。
但是,除了它的應(yīng)用價值之外,ProtGPS 還突出了生物學(xué)中一種新興的范式,即細胞內(nèi)分子的物理排列對其功能至關(guān)重要,就像分子的結(jié)構(gòu)一樣,氨基酸序列中嵌入的密碼會影響折疊和細胞區(qū)室化。
正如一個設(shè)計良好的家不僅僅是家具的集合——它依靠直觀的布局來最大限度地發(fā)揮效用一樣,細胞也需要精確的分子組織才能發(fā)揮最佳功能。通過揭示蛋白質(zhì)序列中的隱藏模式,ProtGPS 可以作為這種細胞流動的建筑師,解碼自然界關(guān)于細胞內(nèi)部設(shè)計的藍圖。
本文譯自 IEEE Spectrum,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )