Nat Methods | AlphaFill:配體和輔助因子加強AlphaFold模型
原創?風不止步?圖靈基因?2022-12-01 09:19?發表于江蘇
收錄于合集#前沿生物大數據分析
撰文:風不止步
IF=47.99
推薦度:?????
亮點:
文章提出了AlphaFill,一種利用序列和結構的相似性將“缺失”的小分子和離子從實驗確定的結構中“移植”到預測的蛋白質模型中的算法。該算法針對實驗結構成功地進行了驗證。
2022年11月24日,荷蘭癌癥研究所的Robbie P. Joosten博士等人在《?Nature Methods》上發表了一篇“AlphaFill: enriching AlphaFold models with ligands and cofactors”的文章,文章通過“移植”在同源蛋白質結構中觀察到的小分子和離子來豐富AlphaFold數據庫中的模型。提出的AlphaFill程序已經針對實驗結構進行了驗證,并應用于所有AlphaFold模型,以創建一個新的資源,即AlphaFill數據庫,旨在幫助生命科學家輕松產生新的蛋白質功能假設,并制定相關的研究問題。
幾十年來,僅根據蛋白質的氨基酸序列來預測其三維(3D)結構一直是一個重大的科學挑戰。最近,人工智能方法,如AlphaFold和RoseTTAfold方法所實現的,已經使蛋白質結構預測變得可靠。這兩種方法都能以令人印象深刻的準確度預測結構域,但蛋白質的靈活部分(如環路或內在無序區)的預測準確度和置信度較低。對48種不同生物體的蛋白質組的預測,以及所有SWISS-PROT的預測,在AlphaFold蛋白質結構數據庫中已經公開。這些預測的模型已經提供了關于蛋白質功能的寶貴的新的生物學見解。
許多蛋白質在自然界中沒有它們的輔助因子就不會出現:肌紅蛋白或血紅蛋白需要血紅素才能折疊;鋅指結構域沒有鋅離子就不穩定,許多蛋白質只能以同型或異型多聚體的形式存在。AlphaFoldMultimer和RoseTTAFold的開發解決了多聚體的問題,它們可以預測復雜的蛋白質組合。然而,預測的結構模型只考慮了20個典型的氨基酸殘基,并沒有預測通常與蛋白質相關的小分子、配體和輔助因子的坐標。
分析蛋白質與輔助因子、配體和離子的接觸,有助于了解蛋白質的功能和結構完整性。它們也有助于設計下游的實驗,無論是在計算上還是在實驗室。到目前為止,AlphaFold數據庫不包括這些化合物,但認識到這一需求,因為每個預測模型都通過PDB-知識庫提供實驗結構的鏈接。文章提出了AlphaFill算法,以創建一個進一步的資源:不限制“移植”到完全相同的蛋白質上,而是將其擴展到這個模型的同源物。
目前的AlphaFill數據庫包含了2,694個不同配體的移植,而PDB中的配體超過了30,000個。這些配體代表了最常見的配體以及CoFactor數據庫中的所有輔助因子,并涵蓋了PDB中配體累計出現次數的95%左右。注意到AlphaFill軟件是免費提供的(在BSD許可下),它允許用戶“提交”任何結構模型進行評估,也有可能考慮PDB中所有>30,000個非聚合物配體。一個API允許用戶上傳和“填充”他們自己的模型或AlphaFold數據庫中的額外結構,也提供了訪問PDB中額外非聚合物化合物的機會。目前AlphaFill并不處理聚合物配體,如肽、核酸或糖類。它也不處理翻譯后修飾,特別是糖基化。其他的翻譯后修飾,如磷酸化,經常會引起構象變化,AlphaFill也同樣沒有處理。
圖1:AlphaFill算法的驗證。
AlphaFill算法中的一個重要決策參數是最小序列同一性閾值,以允許將信息從實驗結構轉移到AlphaFold模型中。將所有顯示出25%以上序列同一性的實驗結構與AlphaFold模型進行疊加,這些模型的排列長度至少為85個氨基酸。這個閾值接近于結構同源性的最小序列一致性要求。根據在同源性約束和基于同源性的實驗結構注釋方面的經驗,對于局部殘基相互作用等結構細節來說,接近70%的閾值要可靠得多;這個閾值也反映在驗證分析中(圖1c)。為了讓用戶探索各種可能性,在網絡界面中引入了一個選擇器,可以在每個結構的基礎上將顯示內容設置為所需的特征水平。
對AlphaFill模型與實驗結構100%的一致性進行驗證,表明局部r.m.s.d.和TCS是衡量移植可靠性的良好指標。根據這兩個標準的統計分布,使用清晰的顏色編碼,以引起用戶對潛在錯誤移植的注意,表明中等和低置信度的移植。為用戶提供了運行即時的能量最小化,以優化感興趣的特定復合體。用戶將檢查選擇,進行選擇,然后優化并下載與他們的研究最相關的優化結構。
圖2:AlphaFill有助于理解Abl激酶AlphaFold模型的激活狀態。
全局r.m.s.d.不是移植質量的一個很好的指標,但對于感受供體和受體結構之間的相似性是很有用的:一個全局r.m.s.d.較低但身份相同或相似的結構,表示有相似的構象。這在激酶的例子中得到了反映(圖2)。對于多結構域的蛋白質,序列比對可以跨越所有的結構域,但是每個結構域的相對位置可能在實驗結構和模型中是不同的。在這種情況下,由于結構域的相對位置不同,結構比對可能會夸大全局r.m.s.d.值。在鋅指蛋白的鋅轉移中觀察到了這一點(圖3c)。
圖3:移植的鋅離子(紫色球體)的例子。
AlphaFill結構模型并不意味著是準確的、精確的或完整的代表某種蛋白質結構的全部配體。它們是作為非專業人員的工具,幫助探索常見配體的復合體。結構生物學或結構生物信息學專家會發現,選擇、疊加和“移植”一個功能或結構輔助因子或離子,并將這些信息通過分子動力學模擬和誘變研究加以驗證,或者根據新的生物化學或生物物理學見解來討論一個模型的結構。
除了使用幾個優化的和穩健的默認值外,AlphaFill軟件的設計是靈活的,因此使用的設置和截止點可以很容易地根據任何用戶自己的目的進行調整。根據定義,AlphaFill依賴于高質量的結構同源物作為轉移配體的第一和主要標準。然而,正如DALI3和PDBeFold所顯示的那樣,某些結構域可以在廣泛的序列相似性的背景下出現。因此,AlphaFill可以通過基于深度學習概念的基于結構的轉移算法來補充,類似于用于AlphaFold結構預測革命的算法。
教授介紹
Robbie P. Joosten博士
研究重點是開發新的計算方法來驗證和提高大分子結構模型的質量。在PDB-REDO項目(pdb-redo.eu)中,從晶體衍射實驗中獲取實驗數據和初始模型,并改善與數據的擬合,消除模型誤差。這種方法為下游研究提供高質量的結構模型,如藥物(鉛)的發現和蛋白質的結構功能分析。
參考文獻
Maarten L. Hekkelman, Ida de Vries et al.AlphaFill: enriching AlphaFold models with ligands and cofactors.(2022)