中國(guó)移動(dòng)集團(tuán)首席科學(xué)家馮俊蘭博士日前出席在成都舉辦的AI for Life Science研討會(huì),并發(fā)表題為《向內(nèi)核要未來(lái)——從AI for Science 到 AI for Industry》的邀請(qǐng)報(bào)告。
科研范式的變化
當(dāng)前,AI技術(shù)正以驚人的速度發(fā)展,科研成果的發(fā)布周期顯著縮短。AI技術(shù)之所以能夠快速迭代主要得益于三大因素:資本與人才的匯聚、數(shù)據(jù)與算力的突破,以及研究范式的變化。AI展現(xiàn)出強(qiáng)大的穿透能力,帶來(lái)全新的用戶體驗(yàn),并開辟了全新的可能性。例如,以前的語(yǔ)音交互系統(tǒng),包含了前端噪聲和回音去除、語(yǔ)音識(shí)別、轉(zhuǎn)文字、文字理解及功能實(shí)現(xiàn)等多個(gè)環(huán)節(jié),而現(xiàn)在的AI技術(shù)可以將所有環(huán)節(jié)全部壓縮到一個(gè)模型,實(shí)現(xiàn)端到端的學(xué)習(xí)和優(yōu)化,這種穿透性也帶來(lái)了“AI+”的范式變革。
從‘+AI’到‘AI+’的轉(zhuǎn)變,并非僅僅是表述上的調(diào)整,而是標(biāo)志著核心主體的根本性變化?!?AI”范式下,行業(yè)或科研主體流程基本不變,通過(guò)融入AI技術(shù)來(lái)提升效率和解決難題。隨著AI基座模型的突破,核心主體變成了AI,基座平臺(tái)和模型成為穩(wěn)態(tài)底座,行業(yè)的業(yè)務(wù)、流程和工具向底座靠近,效率得以大幅提升。AI for Science(AI4S)作為當(dāng)前一個(gè)重要研究方向,是AI和科研兩個(gè)方向的相遇,AI最初被設(shè)計(jì)用來(lái)模擬生命體,做生命體能做的事情,現(xiàn)在AI開始反向使能生命科學(xué)的研究。
當(dāng)代AI技術(shù)的特征將加速科研效率的提升
隨著新成果的快速涌現(xiàn),當(dāng)前,科學(xué)家在研究中正面臨多重挑戰(zhàn):知識(shí)量龐大且更新迅速,其復(fù)雜度、廣度及深度均大幅提升;同時(shí),從海量數(shù)據(jù)中,如實(shí)驗(yàn)數(shù)據(jù)和生命科學(xué)表征數(shù)據(jù)中推理出模式難,加之實(shí)驗(yàn)周期長(zhǎng)、潛在研究路徑眾多,無(wú)疑增加了研究的難度。
大模型技術(shù)帶來(lái)的本質(zhì)改變并不是參數(shù)量規(guī)模的變化,而是相較于小模型只能完成一個(gè)或幾個(gè)特定任務(wù),大模型具有完成無(wú)限任務(wù)、探索更多可能性的潛力。針對(duì)科學(xué)研究中面臨的挑戰(zhàn),當(dāng)代AI技術(shù)可以從以下五個(gè)方面提供解決思路:
一是強(qiáng)大的知識(shí)表征與深度思考能力。簡(jiǎn)單的注意力機(jī)制在知識(shí)吸收、產(chǎn)出和發(fā)現(xiàn)相互作用方面具有巨大的潛力,大模型技術(shù)通過(guò)用更大的參數(shù)量和更復(fù)雜得多模態(tài)組合將知識(shí)融合和表征出來(lái),并發(fā)現(xiàn)多層多域的復(fù)雜相關(guān)關(guān)系,這為科學(xué)研究帶來(lái)很大的自由度,以往依賴直覺的研究現(xiàn)在可以交給AI來(lái)發(fā)現(xiàn)。
二是結(jié)構(gòu)化數(shù)據(jù)大模型??茖W(xué)研究與行業(yè)生產(chǎn)非常相似的地方是都會(huì)產(chǎn)生大量的結(jié)構(gòu)化數(shù)值數(shù)據(jù),以通信行業(yè)為例,每天產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)壓縮后有12PB。結(jié)構(gòu)化數(shù)據(jù)大模型通過(guò)對(duì)歷史數(shù)據(jù)、代碼、文字解釋之間相關(guān)關(guān)系的學(xué)習(xí),能夠知道從哪些角度去分析這些巨量的數(shù)據(jù),這種對(duì)大量結(jié)構(gòu)化數(shù)據(jù)的分析能力可以有效使能科研人員的研究工作。
三是智能體協(xié)同,谷歌最新推出的虛擬科學(xué)家合作伙伴AI co-scientist,是基于Gemini 2.0構(gòu)建的多智能體AI系統(tǒng),通過(guò)使用一系列專業(yè)化的智能體,在3個(gè)關(guān)鍵的生物醫(yī)學(xué)應(yīng)用中探究了 AI co-scientist 生成的假設(shè)和研究建議。
四是集約化的訓(xùn)推技術(shù)。當(dāng)前,人工智能平臺(tái)通過(guò)集中算力、數(shù)據(jù)、模型等資源、優(yōu)化大規(guī)模分布式訓(xùn)練和推理效率、共享底層軟硬件基礎(chǔ)資源等,為科學(xué)研究提供集約化的訓(xùn)練和推理技術(shù)以及自動(dòng)化工具和標(biāo)準(zhǔn)化流程,可以使科研人員專注于專業(yè)領(lǐng)域的探索與創(chuàng)新,提升科學(xué)研究效率。
五是數(shù)據(jù)生成與環(huán)境模擬技術(shù)。智能的來(lái)源主要有兩種,數(shù)據(jù)和環(huán)境。數(shù)據(jù)中包含的“本質(zhì)的密度”決定了數(shù)據(jù)的價(jià)值,比如要研究一個(gè)球在空間中的運(yùn)動(dòng)規(guī)律,可以用幾個(gè)攝像機(jī)把運(yùn)動(dòng)的視頻拍下來(lái),也可以直接測(cè)量它的空間位置隨時(shí)間的變化,這兩者包含的本質(zhì)信息是一樣的,當(dāng)代生成式大模型技術(shù)可以通過(guò)生成類數(shù)據(jù)解決核心數(shù)據(jù)不足的問(wèn)題。在生命科學(xué)領(lǐng)域,通過(guò)應(yīng)用各種人工智能最新技術(shù),可以探索和找到真正表征研究問(wèn)題的數(shù)據(jù),以及實(shí)現(xiàn)數(shù)據(jù)生成和快速迭代的方法。環(huán)境是智能的另一個(gè)主要來(lái)源。每個(gè)行業(yè)都需要構(gòu)建大型的模擬器,例如通信網(wǎng)的實(shí)驗(yàn)需要構(gòu)建符合電磁波時(shí)空傳輸特性的模型,在模擬環(huán)境中進(jìn)行仿真并產(chǎn)生大量的動(dòng)態(tài)實(shí)驗(yàn)數(shù)據(jù),觀察參數(shù)改變對(duì)網(wǎng)絡(luò)性能的影響。這對(duì)生命科學(xué)研究的啟發(fā)是,除了構(gòu)建模型,還需要構(gòu)建一些具備與基座模型對(duì)話、提供動(dòng)態(tài)反饋的模擬環(huán)境。DeepSeek R1突破的一個(gè)關(guān)鍵就在于它為基座模型找到了兩個(gè)反饋非常精準(zhǔn)的領(lǐng)域:數(shù)學(xué)和代碼,只要反饋?zhàn)銐蚓_,即便數(shù)據(jù)量不大,也能獲得顯著的推理能力提升。
生命科學(xué)領(lǐng)域本質(zhì)性問(wèn)題的突破,可能依賴于新型模型架構(gòu)的構(gòu)建和創(chuàng)新性方法的提出,在當(dāng)前階段,充分挖掘并最大化利用現(xiàn)有人工智能技術(shù)的潛力,無(wú)疑是推動(dòng)研究進(jìn)程的關(guān)鍵策略之一。
人工智能基座平臺(tái)賦能科學(xué)研究全流程
隨著人工智能軟硬件技術(shù)的快速發(fā)展,“模型+平臺(tái)”構(gòu)成了“AI+”范式中的核心基座,但 AI 的基礎(chǔ)設(shè)施規(guī)模愈加龐大且模型架構(gòu)愈加復(fù)雜。每當(dāng)AI新技術(shù)出現(xiàn)時(shí),各公司或團(tuán)隊(duì)需要在短時(shí)間內(nèi)快速?gòu)?fù)現(xiàn)、測(cè)試與更新,把最新的技術(shù)帶到應(yīng)用、工作和科研當(dāng)中,這需要大量專業(yè)的開發(fā)和測(cè)試工程師,同時(shí)算力底座與數(shù)據(jù)平臺(tái)的建設(shè)運(yùn)維也依賴大規(guī)模團(tuán)隊(duì)。
對(duì)于大多數(shù)科研團(tuán)隊(duì)而言,其成員多非計(jì)算機(jī)專業(yè)出身,難以獨(dú)立開展 AI for Science工作。此時(shí),人工智能基座平臺(tái)就顯得尤為重要。一方面,基座平臺(tái)要能夠講“科學(xué)家的語(yǔ)言”??茖W(xué)研究涉及生命科學(xué)、材料學(xué)等多個(gè)領(lǐng)域,基座平臺(tái)通過(guò)提供直觀、易用的界面和工具,讓科研人員能夠以他們熟悉的方式與AI交互。例如,借助自然語(yǔ)言處理技術(shù),平臺(tái)能夠精準(zhǔn)捕捉科研人員的需求,迅速轉(zhuǎn)化為可操作的AI任務(wù);同時(shí),可視化工具讓科研人員得以直觀探索數(shù)據(jù)、輕松調(diào)試模型,無(wú)需深陷復(fù)雜算法細(xì)節(jié)的泥潭。另一方面,基座平臺(tái)全面覆蓋科研全流程,在數(shù)據(jù)治理方面,有效整合、清洗多源異構(gòu)數(shù)據(jù),確保數(shù)據(jù)的精準(zhǔn)與可用;其數(shù)據(jù)探索功能則助力科研人員深挖數(shù)據(jù)背后的規(guī)律,發(fā)掘潛在價(jià)值。同時(shí),平臺(tái)需要集成各學(xué)科的常用工具和機(jī)理模型,提供豐富的AI模型和仿真套件,形成“數(shù)據(jù)-模型-仿真”的科學(xué)研究閉環(huán),幫助科研人員快速驗(yàn)證假設(shè)、優(yōu)化實(shí)驗(yàn)設(shè)計(jì)。
因此,基座平臺(tái)要和科研團(tuán)隊(duì)緊密融合,建立一種新的閉環(huán)合作范式,類似于谷歌和斯坦福合作推出AI co-scientist,英偉達(dá)、Arc研究所、斯坦福合作推出Evo-2。
從AI for Science到AI for Industry
當(dāng)前,人工智能基座發(fā)展迎來(lái)了重要時(shí)刻,并帶來(lái)了應(yīng)用范式落地的改變,2025年,人工智能對(duì)各個(gè)行業(yè)的發(fā)展將迎來(lái)兩個(gè)趨勢(shì):向規(guī)模要價(jià)值、向內(nèi)核要未來(lái)。
向規(guī)模要價(jià)值:“AI+”能否成功,取決于其帶來(lái)的價(jià)值是否遠(yuǎn)超投入,近年來(lái),人工智能技術(shù)能力取得了顯著提升,然而,在規(guī)?;瘍r(jià)值的創(chuàng)造上尚未實(shí)現(xiàn)突破性進(jìn)展,當(dāng)前,探索AI在產(chǎn)業(yè)中規(guī)?;瘍r(jià)值實(shí)現(xiàn)的路徑仍面臨諸多挑戰(zhàn)。
向內(nèi)核要未來(lái):內(nèi)核是每個(gè)產(chǎn)業(yè)之所以存在的靈魂,內(nèi)核的智能化和效率提升是決定該產(chǎn)業(yè)能否持續(xù)占據(jù)領(lǐng)先地位的關(guān)鍵因素。當(dāng)前各行各業(yè)的內(nèi)核就是科學(xué),我們?cè)谝劳衅脚_(tái)加速科研效率的同時(shí),也將會(huì)加速產(chǎn)業(yè)內(nèi)核的升級(jí)。
中國(guó)移動(dòng)AI4S能力與實(shí)踐
中國(guó)移動(dòng)具備完善的智算中心基礎(chǔ)設(shè)施和人工智能基座,包括算力底座、AI平臺(tái)、數(shù)據(jù)處理平臺(tái)、九天系列模型,可以支撐模型訓(xùn)練,支持?jǐn)?shù)據(jù)清洗、標(biāo)注、優(yōu)化,匯聚各類模型,支持模型優(yōu)化,以及應(yīng)用模型規(guī)模化的部署。中國(guó)移動(dòng)的九天結(jié)構(gòu)化數(shù)據(jù)大模型,成功將結(jié)構(gòu)化數(shù)據(jù)分析應(yīng)用至大規(guī)模生產(chǎn)實(shí)踐;同時(shí),九天模型的數(shù)據(jù)處理能力也為眾多央企的復(fù)雜文獻(xiàn)數(shù)據(jù)識(shí)別提供了強(qiáng)大支持,能夠精準(zhǔn)識(shí)別并輸出復(fù)雜公式表達(dá)。九天的慢思考能力可以用于設(shè)計(jì)生物實(shí)驗(yàn)以及輔助醫(yī)療診斷。
去年中國(guó)移動(dòng)推出了AI4S科學(xué)實(shí)驗(yàn)裝置,提供面向科學(xué)領(lǐng)域的公共科研開放創(chuàng)新平臺(tái)。該裝置集合了科研模型研發(fā)基礎(chǔ)工具集、科學(xué)模型服務(wù)平臺(tái)、生物蛋白等科學(xué)領(lǐng)域工具套件,提供端到端極簡(jiǎn)科研開發(fā)流程,讓科學(xué)家專注自身專業(yè)領(lǐng)域,提升科研模型研發(fā)效率,賦能和加速國(guó)家高精尖科學(xué)問(wèn)題研究。當(dāng)前AI4S科學(xué)裝置已入駐國(guó)內(nèi)頂尖材料科學(xué)、蛋白質(zhì)預(yù)測(cè)等科研團(tuán)隊(duì),開展RNA等大模型RESM訓(xùn)練,助力疫苗等藥物研發(fā)。
面向未來(lái),中國(guó)移動(dòng)誠(chéng)邀國(guó)內(nèi)更多科研團(tuán)隊(duì)入駐AI4S科學(xué)裝置,共研生物蛋白、化學(xué)材料、原子物理等領(lǐng)域的科學(xué)模型,利用AI技術(shù)探索解決基因、生物、航天、海洋等場(chǎng)景化科學(xué)問(wèn)題,沉淀智能科研工具能力套件,共拓AI賦能交叉學(xué)科前沿新方向。