2020年,谷歌旗下公司DeepMind發布了AlphaFold,實現通過靶點蛋白質的序列來預測三維靜態結構,成功解決了生物學界50年的難題。今年5月,DeepMind發布了升級后的AlphaFold3,它能夠以前所未有的「原子精度」預測出所有生物分子的結構和相互作用,包括蛋白質、核酸(DNA/RNA)和更小分子的3D結構,并揭示它們如何組合在一起。AlphaFold3一經推出就登上Nature頭版,掀起了AI學術圈的巨震。谷歌DeepMind聯合創始人、CEO Demis Hassabis表示,AlphaFold3的發布是一個重要的里程碑,在AI理解和建模生物學的道路上,AI又邁出了重要一步!
對于藥物研發而言,預測分子如何相互作用是一件非常重要的事情,因為大多數藥物的作用原理是與目標蛋白質結合。通過AlphaFold的結構預測研究蛋白質與蛋白質(或其它分子)之間的相互作用,進而確認功能單位或者結構域,可以為遺傳操作提供目標,為設計新的蛋白質或改造已有蛋白質提供可靠的依據,同時為新的藥物分子設計提供合理的靶分子結構。因此,AlphaFold提供的結構預測能力兼具極大的學術和商業價值,受到了全世界研究者的矚目。
AlphaFold的神經網絡模型構架丨圖片來源:DeepMind Blog
不過,AlphaFold3真的就是生物研究者和制藥學家的完美解決方案了嗎?很遺憾,答案是否定的,其中最關鍵的原因是,AI結構預測模型通常只能預測生物分子的靜態3D結構,而不是溶液中生物分子系統的動態行為,這種限制在AlphaFold3中也仍然存在。這對于研究來說是一個巨大的局限,因為客觀的真實世界是時刻動態變化的,預測靜態3D結構意味著只能在一個復雜的運動過程中截取一個瞬間的片段切片,要想基于一個切片把完整的運動過程研究清楚,顯然是不切實際的。
我國著名的結構生物學家、中科院院士顏寧曾在2022年的青年科學家502論壇上分享她關于AI與結構生物學未來的看法。顏寧老師表示,雖然非常看好AI的未來,但現在來看它還是非常有局限性的,小分子是一個無窮的化學世界,想要去計算難度很大,短時間內并不看好AI可以真正取代實驗技術。關于結構生物學未來,她認為,一是原位的結構生物學,即細胞內部時空分辨率的結構生物學,二是不同構象以及它們的變化的速度,如何去理解細胞里各個分子的動態變化,是目前面臨一個最大的挑戰。“理解自然本身就是很美妙的事情。你不理解就寢食難安。如果看到它的不同的構象,就會發現新的藥物靶點,就會理解一些突變是怎么樣導致疾病的,而僅靠一個構象是沒有辦法呈現這些的”,顏寧老師稱,自己最終極的職業目標就是從非常高的時空分辨率上理解細胞里小小分子世界。
顏寧老師提及的“時空分辨率”的關鍵所在,就是AlphaFold缺失的動態構象信息。AlphaFold就像是一個生物分子的3D攝影師,可以為研究者提供非常高清的生物分子結構預測的“照片”,但是,對于生物學家和制藥學家來說,他們追求的是看到生物分子整個動態變化的“影片”。正如顏寧老師所說,很多時候單純的“看到”就已經可以幫助到“理解”,顯然,“看到”富含動態構象信息的分子“影片”將會比過去的靜態“照片”更加提升科學家的“理解”水平。
那么,是否有辦法能夠補全AlphaFold在生物分子動態信息方面的短板呢?這就不得不提到計算生物學里面專門用于研究分子動態構象變化的分子動力學(Molecular Dynamics,簡稱MD)了。分子動力學是一種發展了幾十年的計算機模擬實驗方法,該技術不僅可以得到原子的動態運動軌跡,還可以觀察到原子運動過程中各種微觀細節。它是對理論計算和實驗的有力補充,廣泛應用于材料科學、生物物理和藥物設計等。
只不過,由于使用分子動力學模擬構象態之間的過渡軌跡需要耗費巨大的計算成本,舉例來說,人體內典型的大分子蛋白質往往由幾十萬到上百萬個原子構成,假設我們用分子動力學模擬方法計算一個50萬原子的蛋白質運動0.001秒的“影片”,哪怕用上1000顆主流CPU并行計算,都需要耗費超過100年的時間。這個巨大的限制讓分子動力學的方法在過去一直都沒法成為研究界的主流。
2013年,分子動力學在計算效率方面的窘境終于迎來了突破的轉機。這一年,美國D. E. Shaw研究所發布了分子動力學專用超級計算機安騰的第二代,它的算力的效率可以輕松達到傳統超算的100-10000倍,在超算安騰的支持下,科學家能夠以天為單位輕松完成微秒級的蛋白質動態仿真計算,甚至可以直接看到毫秒級蛋白質運動的動態“影片”。超算安騰一經發布就引起全世界范圍內的關注,在往后的幾年里,通過超算安騰發表在Cell、Nature、Science等頂刊的論文數量都達到了幾十篇,可以說,超算安騰幾乎憑借一己之力讓美國生物計算領域的發展領先了世界十年以上。
安騰超級計算機丨圖片來源:網絡
D. E. Shaw研究所的單一兵博士等曾在2020年發表文章,描述了通過超級計算機安騰看到的“動起來的蛋白質”的畫面:利用超算安騰的超長時間模擬,觀察到結合在蛋白表面的成藥小分子,從一個結合口袋逐步“爬行”到另一個結合口袋,在此過程中蛋白構象發生變化,其隱匿口袋打開。類似這樣的研究成果在過去是不可想象的,并且它具有能夠顛覆傳統生物制藥研究范式的重大意義。
目前,有部分科學家已經開始展望將AlphaFold3這樣的AI靜態構象預測工具,與分子動力學這樣的動態構象模擬計算工具相結合的應用場景。
首先,由于分子動力學模擬計算的參數輸入需要的正好就是蛋白質的靜態構象文件(PDB文件等),因此通過AlphaFold3預測出來的大量蛋白質靜態結構正好可以作為分子動力學模擬計算的輸入,通過AlphaFold3+分子動力學模擬的組合拳,科學家和制藥學家可以針對想要研究的生物現象或潛在的成藥靶點和成藥分子,在AI模型里面進行自由的探索和批量的預測,隨后針對其中有價值的預測成果,再通過長時間的分子動力學模擬來補充更多的動態構象信息,來幫助發掘更多有價值的成果,最后再通過實驗進行精確的驗證。可以預見到,這樣的全新研究范式將會極大加速相關研究和藥物研發的效率和精度。AlphaFold3的預測本來就不需要耗費很長時間,而類似超算安騰這樣的高性能超算又讓過去動輒耗時數周數月的分子動力學模擬的部分變成了幾小時就可以完成的工作量,如此一來,這樣的研究模式讓很多研究者都看到了極大的潛力。
更進一步的,由于AI需要大量的數據進行模型訓練,而過去能夠獲取的生物分子結構數據幾乎都是依靠冷凍電鏡等顯微鏡獲取的靜態構象,因此諸如AlphaFold這樣的AI模型也只能依靠靜態構象數據的訓練得到靜態構象的預測能力。試想如果能夠給AI提供大量基于分子動力學模擬得到的生物分子動態構象數據來訓練,是否就有機會在未來的AlphaFold4/5/6代實現動態構象數據的AI預測能力了呢?屆時,AlphaFold應該就可以真正升級為AlphaDynamics,到那時,顏寧老師關于從非常高的時空分辨率上觀測微觀世界的目標可能就真的徹底被高效率地實現了。
不過,上述很多的構想,都需要依托于超算安騰對于分子動力學模擬計算的加速能力,否則,構想中的研究方法依然是需要耗費大量時間算力的“奢侈品”。可惜的是,目前世界上僅有的幾臺超算安騰都被安置在匹茲堡超算中心和位于紐約市的D. E. Shaw研究所中,并且其上機時間會嚴格根據提交給美國國家科學院獨立專家委員會的研究提案分配,只接受美國學術機構的使用申請,嚴格禁止中國等其他國家科學家使用。因此,對于世界上絕大多數科學家來說,分子動力學模擬算力依舊是極其稀缺的研究資源,要想像超算安騰那樣實現超高速大體系長時間的分子動態模擬,就只能依靠在傳統超算中心上付出數十倍于超算安騰的計算時間和成本。
對于我國來說,超高性能的分子動力學算力將會成為決定生命科學和生物制藥這樣高精尖領域競爭的基石。憑借超算安騰的壟斷算力,美國一家曾經默默無聞的AI制藥公司Relay Therapeutics,僅用18個月、不到1億美金,就確認了一款用于治療膽管癌的高選擇性FGFR2抑制劑藥物RLY-4008的結構,這樣的研發效率打破了多年來“新藥研發費用超10億美元,研發周期超10年”的雙十魔咒,震驚了世界,也讓Realy在醫藥圈一戰成名。如果再疊加AlphaFold的數據庫,藥物研發的效率很可能會進一步大幅提升。
英偉達CEO黃仁勛曾驚嘆,“未來生命科學會像傳統行業那樣高度工程化。當數據科學、人工智能和自動化的結合時,生物學會呈指數級改進,從而成為下一個黃金賽道。” 在這條黃金賽道上,我們必然不能缺席,并且高性能的超算很可能會成為賽道準入的重要入場門票之一。
當然,我們國家目前已經是世界公認的超算大國,在頂尖的通用超算競爭領域,已經有“太湖之光”“海洋之光”等足以媲美世界最強性能的國產超算不斷在誕生和迭代超越。不過,在超算安騰制霸的分子動力學專用超算領域,目前似乎還沒有效率足夠匹敵的方案出現,我們希望在不久的將來也能擁有追趕和媲美超算安騰的、屬于我們自己的超高性能的專用領域超算。