Covid19-delta毒株引起的疫情搞得大家人心惶惶,作為一名科學研究人員,自然希望為疫情的控制盡一份力。寫這篇帖子是為了將最新開發的alphafold2和Covid19-delta毒株的藥物研發結合起來,看一看最新的人工智能技術可以怎樣輔助藥物研發。這篇帖子只是一時興起,純屬娛樂,內容也比較粗略,所以求各位看官輕拍!
1、 背景介紹
Covid19-delta毒株的來源
首先Covid19-delta毒株首先是在印度發現的,這個毒株有多厲害,相信大家已經在各種新聞推送里面了解過了,揚州一個老太太讓整個揚州城淪為高風險疫區,可見這個毒株有多可怕。
Covid19藥物的主要靶點
Covid19的主要結果蛋白包括S蛋白(刺突)、E蛋白(包膜)、M蛋白(跨膜)和N蛋白(核衣殼),在這些結構蛋白中,S蛋白上的突變位點最多,也最關鍵。Covid19主要是通過S蛋白與宿主細胞表面ACE2受體結合感染宿主細胞,因此S蛋白是絕大多數新冠疫苗發揮作用的主要靶標。Covid19-delta也是刺突蛋白的氨基酸突變所導致的變異,導致其傳播能力更強。
本貼的工作主要有(1)通過NCBI檢索Covid19-delta的刺突蛋白(spike protein)的氨基酸序列(2)通過序列比對,找到刺突蛋白與ACE2受體蛋白的作用的主要domain
alphafold2構建Covid19-delta的蛋白三級結構。(3)通過zdock對Covid19-delta的刺突蛋白與ACE2受體蛋白進行分子對接。(4)分子動力學模擬Covid19-delta與ACE2受體蛋白相互作用的動態過程。
2、 尋找Covid19-delta毒株刺突蛋白序列
首先我們在NCBI(https://www.ncbi.nlm.nih.gov/datasets/coronavirus/genomes/)上找到Covid19-delta的序列信息,如圖1所示
接下來,在Protein.faa文件中找到刺突蛋白的序列。我找到了3個序列(圖2),并且通過DiscoveryStudio比較了三個序列的相似度。結果表明,這三個序列相似度在99%左右。
接下來,我需要知道這個蛋白質的主要參與到與ACE2受體識別的亞基。為了實現這個目標,我在PDB數據庫(https://www1.rcsb.org/)中搜索SARS-Covid19 spike protein與ACE2受體相互作用的模型。我找到了6個結果,選擇了第二個結果(7KMB,圖4),原因是這個結果簡單,并且反映出了Spike蛋白與ACE2受體之間相互作用的主要domain。
接下來,需要通過序列比對的方法,找到在Covid19-delta毒株的spike蛋白中與7KMB對應的蛋白序列位點。為了實現這一步,首先將7KMB.pdf文件導入到DS(DiscoveryStudio,以后簡稱DS)(圖5)。F亞基是ACE2 Receptor,G亞基是Spike Domain。提取出G亞基,然后將G亞基的序列比對到前面的3個Covid19-delta的spike蛋白的序列上。結果嘛~,序列差別挺大的(圖6)。不過三級結構是什么樣的,只有比對之后才知道。接下來就是做序列比對了。
3、 使用alphafold2對刺突蛋白進行建模
既然三個Covid19-delta序列如此相似,那么在三級結構上也會非常相似。我選擇了第一個QWE80500.1中與7kmbSpike比對得到的序列作為種子,使用Alphafold2對這段序列進行建模。這個操作比較簡單,Alphafold2提供了jupyternotebook,可以直接輸入序列,并且使用google colab上的計算資源進行計算(https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb#scrollTo=kOblAo-xetgx)。
輸入序列,等待運算完成。大約5-7min,結果就計算出來了(圖 8)。從圖中可以發現,計算氨基酸構想評分都在80分以上,結果非常好。
4、 使用zdock進行分子對接
接下來,需要使用ACE2與預測出來的蛋白質進行zdock對接。為了簡化計算,在對接過程中,我選擇了7kmb蛋白中與spike蛋白結合的氨基酸位點作為對接偏好性選項(圖9)。
通過zdock,選擇ZDock Score最高和RMSD最小的Poses(圖10,圖11)。
5、 分子動力學模擬,探索刺突蛋白與ACE2之間的相互作用
最后一步,通過分子動力學模擬,描繪在水相環境中對接的蛋白質的動態變化過程。這一步按照分子動力學模擬的常規路線,prepare-protein-》Add Forcefield-》solving-》Dynamics(圖12)。
最終經過13個小時運算,獲得了100ps的50個comformation。從能量狀態來看,似乎這個不是一個非常穩定的狀態(圖13)。分子動力學動畫如圖14所示。
總結:本次實驗所做的工作只是簡單地跑了一個大概地流程,其中很多細節還可以繼續深挖,比如pose1中spike protein與ACE2受體蛋白之間相互作用的氨基酸殘基的特點,再比如后期的分子動力學模擬并沒有達到穩定的狀態。受限于我的計算資源和時間,這個研究還是比較初步的,主要的創新點是使用alphafold2預測了Covid19 spike protein的三級結構,并且粗略展示了一下這個蛋白對接的主要結果。這個研究再寫詳細一點就是一篇不錯的本科畢業論文了。感謝張寶寶幫我把mp4格式轉換為gif,并且還幫忙整理了文章格式。好了,這個研究暫時告一段落,接下來繼續搬磚去咯!