9 月 26 日下午, 2021 年世界互聯網大會在烏鎮召開。在數據與算法論壇上,清華大學 智能產業研究院(AIR)院長張亞勤院士圍繞“人工智能賦能生命科學”這一主題,介紹生物世界發生的數字化和智能化新變革, 并分享清華大學智能產業研究院(AIR)在人工智能與生命健康交叉學科發展上的新布局。
圖片來源浙江日報記者 李震宇
生命科學與生物醫藥領域正在步入數字化 3.0 時代, AI正在加速生命健康與生物醫藥 領域向著更快速、更精準、更安全、更經濟、更普惠的方向穩步發展, 全球已涌現出一大批優秀的生物科技公司。
考慮到人工智能與生物醫藥產業融合的加速與深化, 張亞勤對清華大學智能產業研究 院(AIR)在“AI+生命健康方向”做了四個研究方向的布局: AI 增強個人健康管理與公共 衛生、AI+醫療與生命科學、AI 輔助藥物研發、AI+基因分析與編輯。
針對人工智能與生命科學、生物醫藥領域的知識鴻溝,清華大學智能產業研究院(AIR) 提出了“AI+生命科學破壁計劃”,定義 AI+生命科學領域的核心前沿研究任務。
張亞勤將AlphaFold2 的成功歸因于任務的特殊性和模型的優越性,它的成功正在開啟 一個新的時代——AI+大分子制藥的黃金時代。人工智能模型將會變得更加智能,加速生命科學研究與生物醫藥產業研究范式與產業模式的更新、迭代。
張亞勤認為, 生物世界正處于數字化、自動化和智能科學計算的新變革中, 用人工智 能和數據驅動的第四研究范式來輔助人們探索并解決生命健康的問題成為一個重要的研究方向?!拔磥?,需要學術界和產業界共同推動生命科學、生物醫藥、基因工程、個人健康各領域從孤立、開環向協同、閉環發展,實現更快速、更精準、更安全、更經 濟、更普惠的生命科學與生物醫藥創新?!睆垇喦谡f。
在數據與算法論壇上,張亞勤還發表了以“人工智能賦能綠色計算”為主題的演講演講。
以下為《人工智能賦能生命科學——機遇與挑戰》 演講原文:
尊敬的各位來賓,領導,朋友們:
大家下午好!
我是張亞勤,很高興來到山清水秀、風光優美的烏鎮與各位領導、嘉賓及業界精 英共同探討算法及人工智能的發展與未來,深化網絡空間的國際共識。
今天,我將圍繞“人工智能賦能生命科學”這一主題,介紹生物世界發生的數字化 和智能化新變革,并分享清華大學智能產業研究院(AIR)在人工智能與生命健康交叉學科發展上的新布局。本次報告由我及我的團隊成員馬維英、蘭艷艷、黃婷婷共同完成。
隨著基因測序技術、高通量生物實驗、傳感器等技術的發展,生命科學與生物醫 藥領域正在步入數字化 3.0 時代,數字化、自動化進程加速。健康計算作為一種新型智能科學計算模式, 是以人工智能和數據驅動為核心的第四研究范式。 它將極大助力人類探索并解決生命健康問題。
人工智能從上世紀五十年代發展到今天,產生了很多不同的算法,尤其是以早期 的 RNN、LSTM 和 CNN 為代表的深度學習技術,及過去這兩年的 GAN、 transformer - based (BERT 和 GPT -3 模型), 預訓練模型等等,可以說從我們感知方面語音識別、人臉識別、物體的分類,已經和人達到同樣的水平。但在自然語言理解,知識推理,和視頻語義和泛化能力方面還有很多差距。另外在算法透明性,可解釋性,因果性,安全,隱私和倫理等方面還存在較大挑戰。
在可信 AI 計算方面最近又很多進展, 一個例子是聯邦學習,這也是清華大學智能產業研究院的一個重要研究課題。聯邦學習主要有兩種方案,一種是橫向聯邦學習,它主要面向不同來源特征和模型相同的場景,能夠保證相同模態不同來源數據之間的隱私性。另一種叫做縱向聯邦學習,它可以處理不同來源的特征和模型不同的情況,能夠保證多模態數據之間的隱私性。
我們已經看到, AI 正在加速生命健康與生物醫藥領域向著更快速、更精準、更安 全、更經濟、更普惠的方向穩步發展。具體體現在,人工智能在蛋白質結構預測、CRISPR 基因編輯技術、抗體/TCR/個性化的疫苗研發、精準醫療、 AI 輔助藥物設計等方面的研究已成為國際前沿戰略性研究熱點。
考慮到這樣的學科發展趨勢和產業背景,清華大學智能產業研究院在“AI+生命健 康方向”做了四個研究方向的布局,聚焦在研究“AI 增強個人健康管理與公共衛生” 、“AI+醫療與生命科學”、“AI 輔助藥物研發”與“AI+基因分析與編輯”方向。
作為交叉領域研究與應用,我們認識到人工智能與生命科學、生物醫藥領域存在較大的知識鴻溝,缺乏面向生物計算的數據集、AI 平臺、核心算法、計算引擎,同時跨界人才也非常稀缺。針對以上挑戰,我們提出“AI+生命科學破壁計劃”,目標是定義 AI+生命科學領域的核心前沿研究任務,跨越生命健康領域與人工智能的領域鴻溝,打破壁壘,促進 AI 與生命科學的深度交叉融合,加速科學發現。
為此,我們需要構建面向生命科學領域的人工智能基礎設施、數據平臺、核心算 法引擎,支撐生命科學前沿研究任務。 同時通過打造旗艦公開數據集,組織算法挑戰 競賽,構建 AI+生命科學的眾智平臺,培養跨界人才,構建產業生態。
AlphaFold2 是 AI+生命科學的一個典型成功案例。它的成功因素來自于兩方面, 首先, 是任務的特殊性,蛋白質結構預測就可以看作從序列到三維結構的一個一一映射問題,因此它是一個well define 的 AI 問題。這就是破壁計劃的目標,要找到生命科 學中意義重大, 但同時又能抽象為適合 AI 的研究任務。第二,是模型的優越性。一方面,長時間的生命科學領域的研究積累了大規模的蛋白質結構數據,而AlphaFold2 的 整個模型架構則充分利用了數據驅動的端到端深度學習模型,大數據與深度模型的結 合恰恰是第四范式的典型特點。因此,AlphaFold2 帶給我們的啟示就是在 AI+生命科學的研究中,要注重破壁和第四范式的重要性。
顯然, AlphaFold2 僅僅是一個開始,它的成功正在開啟一個新的模式。蛋白質結 構的精準預測為生命科學家提供了高效的計算工具,也為基于 AI 的重大生命科學發現提供了可能。未來,抗體、抗原的表位預測,腫瘤的精準療法,TCR/個性化疫苗的設 計與優化等方向將成為重要的研究熱點,并在 AI 驅動的新計算模式下取得突破性進展, AI+大分子制藥的黃金時代將正式到來。
其中,還會產生很多新的科學挑戰,也預示著將產生新的計算范式,例如,干濕融合的閉環式計算框架。一方面人工智能模型通過高通量、多輪濕實驗的閉環驗證和 數據補充將變得更為智能。另一方面,通過主動學習或強化學習的方式, AI 將主動規劃濕實驗的自動化進行,形成干濕閉環驗證、迭代加速生命科學發現與產業應用。我們預見到,通過干濕閉環打通,生命科學研究與生物醫藥產業將迎來新的研究范式與產業模式。
我們目前在基因數據的表達和預測方面已經取得了一些初步進展。最近,由我們 清華大學智能產業研究院(AIR)的蘭艷艷教授帶領 GeneBert 團隊設計了一個新穎的基因預訓練模型,通過構建序列與轉錄因子之間的二維矩陣,實現了一個多模態的基 因預訓練模型,獲取了基因數據的有效表示,尤其是挖掘了非編碼區的數據價值,在 下游的啟動子、轉錄子結合位點的預測,先天性巨結腸疾病的基因篩選任務上都大幅 提高了性能。我們相信,類似預訓練這樣的前沿 AI 技術在基因數據上的持續深入應用,將進一步挖掘基因數據的價值,幫助我們破解人類的密碼,在癌癥的精準治療等重要問題上發揮作用。
總結來看,我們認為,生物世界正處于數字化、自動化和智能科學計算的新變革 中,用計算的方法,即人工智能和數據驅動的第四研究范式來輔助人們探索并解決生 命健康的問題成為一個重要的研究方向。未來,需要學術界和產業界共同推動生命科 學、生物醫藥、基因工程、個人健康各領域從孤立、開環向協同、閉環發展,實現更快速、更精準、更安全、更經濟、更普惠的生命科學與生物醫藥創新,這代表著下個十年巨大的科學發展與產業創新的新機會。
我們熱切呼吁更多的人來關注、支持或投身于這個新興交叉學科的發展,謝謝大家!