星火語音大模型誕生的意義,不僅僅是成為更高效和智能的生產(chǎn)力,科大訊飛的判斷是,語音交互,能加速萬物互聯(lián)時(shí)代的到來。
“聽說今年?duì)枮I特別火,作為南方小土豆還挺想去玩一下的。要不你用東北話介紹下有啥好玩的唄?”這是一段用語音輸入的需求。
隨即,手機(jī)中響起一口地道東北話,不僅制定了旅游攻略,還提醒春運(yùn)機(jī)票緊俏,催促趕緊買票。
這位貼心的“東北朋友”,實(shí)則科大訊飛最新發(fā)布的大模型“訊飛星火V3.5”。人機(jī)交互界面從去年的自然語言交互,發(fā)展到如今的全語音交互,也標(biāo)志著大模型將萬物互聯(lián)時(shí)代的語音交互推到了新的高度。
1月30日,在大模型應(yīng)用落地元年,科大訊飛交了一份有厚度的開年答卷:
在算力層,與華為昇騰聯(lián)合打造的國內(nèi)首個(gè)純國產(chǎn)算力平臺“飛星一號”進(jìn)行了首秀——基于其訓(xùn)練的開源模型“星火開源-13B”,也首次秀了肌肉;在模型層,訊飛星火V3.5底座能力升級,整體接近GPT-4。與此同時(shí),國內(nèi)首個(gè)語音大模型“星火語音大模型”也初次亮相。
三個(gè)月內(nèi),一個(gè)“升級”,三個(gè)“首秀”——即便對成立25年仍在不斷創(chuàng)新的科大訊飛而言,亦是勇敢的挑戰(zhàn)。
在2023年10月24日的全球1024開發(fā)節(jié)上,董事長劉慶峰就立下軍令狀:聯(lián)合華為打造自主可控大模型算力底座“飛星一號”平臺,在此基礎(chǔ)上,訊飛星火大模型開啟對標(biāo)GPT-4的更大規(guī)模訓(xùn)練。
訊飛用近百日交出的答卷,劉慶峰如此形容:不僅達(dá)到預(yù)期,還帶來驚喜。
基于全國產(chǎn)算力訓(xùn)練后,星火V3.5七大核心能力全面提升,在語言理解、數(shù)學(xué)能力超過了GPT-4 Turbo。
但恰恰只有走在技術(shù)變革浪尖的人才能充分明白,新的模型能力高度,注定會(huì)將AI應(yīng)用場景拓展到前所未有的廣度;對下游應(yīng)用廠商而言,新的AI世界中也蘊(yùn)含著新商機(jī)。
三個(gè)月的“訊飛式”磨煉,已為大模型產(chǎn)業(yè),打開了一扇通往新世界的門。
大模型的智能涌現(xiàn),已經(jīng)給人類帶來了無數(shù)關(guān)于新世界的想象:
基于內(nèi)容理解能力,大模型能成為提效的打工神器,也能成為翻譯、教師、科學(xué)家等各行業(yè)的專家,助力知識傳播和普惠;基于全語音等多模態(tài)交互能力,AI能接入手機(jī)、PC、汽車、智能家居,推動(dòng)萬物互聯(lián),創(chuàng)造新商機(jī)的同時(shí),為用戶帶來全新的產(chǎn)品體驗(yàn)。
當(dāng)然,通往新世界,要求更出色的模型能力,而錘煉模型,歸根到底需要更大規(guī)模的高性能算力。
眾所周知,大模型是一場算力入場費(fèi)高昂的游戲。此前OpenAI發(fā)布的研究報(bào)告就表明,在2012年至2018年的早期研發(fā)過程中,AI大模型所消耗的算力,每隔4個(gè)月就會(huì)翻倍。國外巨頭尚且囿于算力短缺困局,長期依賴海外高性能芯片的國內(nèi)廠商,一時(shí)更是難以找到國產(chǎn)替代。
“星火大模型的持續(xù)迭代升級基礎(chǔ)是自主可控的算力平臺,不會(huì)受制于人。”正如科大訊飛的判斷所言,要讓AI發(fā)展不掣肘于芯片的供應(yīng),則需要國內(nèi)廠商自建算力命脈。而建立國產(chǎn)算力平臺,也成為國內(nèi)芯片廠商布局的方向。
但要讓國產(chǎn)算力精準(zhǔn)適配AI大模型訓(xùn)練的需求,仍需要一定的磨合期。要讓國產(chǎn)算力在AI領(lǐng)域大規(guī)模商用,少不了大模型廠商的深度共建。更進(jìn)一步,國產(chǎn)大模型想要追上甚至趕超GPT-4的能力,則需要更大規(guī)模的算力、以及創(chuàng)新訓(xùn)練技術(shù)的支持——前者提供燃料,后者則是提升訓(xùn)練效率的催化劑。
為了實(shí)現(xiàn)追趕GPT-4的目標(biāo),在去年全球1024開發(fā)節(jié)上,科大訊飛宣布與華為聯(lián)合發(fā)布大模型算力底座“飛星一號”平臺。
彼時(shí)的科大訊飛與華為昇騰,已經(jīng)在算力搭建上做了不少生態(tài)共建和技術(shù)磨合。2023年7月,訊飛星火就與華為昇騰AI聯(lián)合,讓國產(chǎn)大模型架構(gòu)在自主創(chuàng)新的軟硬件基礎(chǔ)之上,打造國產(chǎn)通用智能新底座。8月15日,科大訊飛與華為還共同發(fā)布用于構(gòu)建專屬大模型的軟硬件一體化設(shè)備“星火一體機(jī)”,讓底層算力、AI框架、訓(xùn)練算法、推理能力、應(yīng)用成效等AI能力,對每家企業(yè)或機(jī)構(gòu)都“開箱即用”。
在如今的國際局勢下,種種跡象表明,海外芯片的阻力或?qū)⒂鷣碛蟆V挥袊a(chǎn)的底層算力土壤能與美國一較高下,其中生長出的AI模型和應(yīng)用才有更多較量的可能。
因此,“飛星一號”的出現(xiàn),不僅對于科大訊飛,而是對AI全產(chǎn)業(yè)均有重大的意義。一方面,“飛星一號”不僅能滿足訊飛自身大模型快速迭代、發(fā)展的需要。另一方面,也能為國內(nèi)AI產(chǎn)業(yè)提供國產(chǎn)化的算力底座,將應(yīng)用布局在國產(chǎn)算力之上。
國產(chǎn)算力的土壤上,能生長出怎樣的大模型?1月30日,到了“飛星一號”交答卷的時(shí)刻。
訊飛星火認(rèn)知大模型 V3.5,是基于“飛星一號”平臺的國產(chǎn)算力原生模型,也承載了科大訊飛劍指GPT-4的野心。
大模型能力的全面提升,也極大提升了星火的應(yīng)用落地的賦能深度和場景廣度。
比如在教育領(lǐng)域,劉慶峰判斷“教育是真正的全民剛需”,AGI作為能夠改變世界生產(chǎn)生活方式的全新技術(shù),可以推動(dòng)人類進(jìn)步。發(fā)布會(huì)上,科大訊飛推出了接入V3.5的星火智慧黑板。基于多模態(tài)理解與推薦、全自然交互、虛擬人輔學(xué)等功能,“愛因斯坦”能夠成為孩子的教師,不同科目能夠因材施教,枯燥的理論能夠被結(jié)構(gòu)為清晰易懂的可視化表達(dá)。
而在職場辦公領(lǐng)域,自智能初步涌現(xiàn)以來,大模型也一直作為生產(chǎn)力工具,被給予提效的厚望。發(fā)布會(huì)上,接入訊飛星火V3.5的打工神器“訊飛智文”,用幾分鐘的時(shí)間,就生成了超20頁的PPT。
當(dāng)然,隨著應(yīng)用落地步伐的加快,模型能力的迭代方向,最終要根據(jù)廠商自身優(yōu)勢,找到滿足市場需求、解決用戶痛點(diǎn)的場景。
科大訊飛選擇了與身俱來的強(qiáng)項(xiàng):智能語音。
科大訊飛發(fā)布的國內(nèi)首款語音大模型“星火語音大模型”。在對中文、英語、法語、俄語等37個(gè)主流語種的語音識別效果,星火語音大模型已經(jīng)超過了OpenAI Whisper V3。具體到表現(xiàn),星火語音大模型也實(shí)現(xiàn)了“像人一樣說話”,首批40個(gè)語種擬人度超過83%。
占有中文語音技術(shù)市場70%以上的市場份額,科大訊飛在智能語音領(lǐng)域的技術(shù)和產(chǎn)品實(shí)力,有目共睹。2023年8月,科大訊飛躋身國內(nèi)11家首批大模型備案獲批的公司。通過將星火認(rèn)知大模型的能力落地到智能辦公本、AI學(xué)習(xí)機(jī)、翻譯機(jī)、錄音筆等產(chǎn)品中,訊飛AI硬件銷售額在雙十一期間同比增長了126%,多個(gè)產(chǎn)品蟬聯(lián)京東&天貓雙11品類銷售額冠軍。
本次語音大模型重點(diǎn)落地到科大訊飛的當(dāng)家硬件產(chǎn)品訊飛翻譯機(jī)中,新上線的多語種自動(dòng)識別功能,支持對35種語言的自動(dòng)識別和翻譯。而新增的增強(qiáng)式翻譯功能,則瞄準(zhǔn)了中英雙語服務(wù)場景,讓跨語言交流更加絲滑。
另一個(gè)重要場景是汽車,當(dāng)大模型上車,語音就是最為合適的人機(jī)交互方式。而接入熟練運(yùn)用多種語言的語音大模型,亦將成為車企拓展海外商機(jī)的窗口。比如,連續(xù)幾十年位居中國汽車出口量第一的奇瑞,能夠順利出海覆蓋英語、俄羅斯語、西班牙語、阿拉伯語、葡萄牙語等數(shù)十個(gè)語種的國家,背后也都有科大訊飛提供的智能語音交互技術(shù)。
不僅僅是車的交互體驗(yàn),劉慶峰在發(fā)布會(huì)上描繪的圖景中,陪伴機(jī)器人、智能家居、穿戴式設(shè)備等產(chǎn)業(yè)也將隨著語音大模型的賦能進(jìn)一步被引爆。
“人類80%的信息輸入依靠視覺,90%的信息輸出依靠聲音和語言。”科大訊飛成立之初,劉慶峰就做出了如此判斷。當(dāng)下,他回顧初心:“科大訊飛從創(chuàng)業(yè)之初的夢想和使命,就是要實(shí)現(xiàn)溝通無障礙。25年了,我們目標(biāo)和夢想一天都沒有變。”
星火語音大模型誕生的意義,不僅僅是成為更高效和智能的生產(chǎn)力,科大訊飛的判斷是,語音交互,能加速萬物互聯(lián)時(shí)代的到來。
2023年以來,星火大模型的落地也在逐漸深入:
亞運(yùn)會(huì)上,工作人員借助訊飛星火與中國移動(dòng)開發(fā)的5G新通話助手,實(shí)現(xiàn)剛掛電話就生成待辦事項(xiàng);科大訊飛聯(lián)合科普中國、少年兒童出版社首發(fā)科普大模型,將優(yōu)秀科普資源惠及廣大中小學(xué)生,及時(shí)回應(yīng)孩子的每一次提問,課堂學(xué)生互動(dòng)參與率從25%提升到77%,問題解答率從23%提升到95%;自去年5月訊飛星火正式發(fā)布起,有超過60萬訊飛智能辦公本、智能錄音筆用戶累計(jì)調(diào)用語篇規(guī)整、會(huì)議紀(jì)要、自動(dòng)寫稿等能力650萬次。
當(dāng)模型競速的重點(diǎn)從拼技術(shù)到拼應(yīng)用,首先要保證大模型的安全可控。
科大訊飛首先在模型層面,就形成了立體化的“內(nèi)容安全”保障機(jī)制。而通過與華為昇騰聯(lián)合打造自主可控的國產(chǎn)化算力平臺“飛星一號”,科大訊飛繼而實(shí)現(xiàn)了對算力安全和自主發(fā)展的保障。而隨著智算平臺進(jìn)一步對社會(huì)面企業(yè)和機(jī)構(gòu)開放服務(wù),高性價(jià)比且自主可控的國產(chǎn)算力,也將成為支持大模型發(fā)展的資源儲備和堅(jiān)實(shí)后盾。
其次,模型能力,也永遠(yuǎn)是模型廠商的立身之本。
僅用時(shí)三個(gè)月的模型能力迭代答卷已經(jīng)證明,科大訊飛的模型進(jìn)化速度在業(yè)界處于領(lǐng)先地位。此前,新華社研究院中國企業(yè)發(fā)展研究中心在2023年11月發(fā)布的《人工智能大模型體驗(yàn)報(bào)告3.0》也顯示,訊飛星火認(rèn)知大模型在10家最新版本國產(chǎn)主流大模型產(chǎn)品中蟬聯(lián)冠軍,并獲得基礎(chǔ)能力指數(shù)、智商指數(shù)、工具提效指數(shù)三項(xiàng)評測指標(biāo)第一。
此外,模型可持續(xù)的迭代,是模型廠商的活水源頭,才能保持下游AI應(yīng)用生態(tài)的繁榮。
2023年僅僅是大模型的發(fā)展元年,各家廠商的模型實(shí)例還遠(yuǎn)未到拉開差距的地步。做好應(yīng)用落地,形成數(shù)據(jù)飛輪,實(shí)現(xiàn)模型能力的可持續(xù)迭代和進(jìn)化,才能讓大模型廠商夯實(shí)自身的實(shí)力壁壘。
可持續(xù)的進(jìn)化,一方面仰賴繁榮的開發(fā)者生態(tài)。在訊飛開放平臺之上,大模型總開發(fā)者數(shù)量已經(jīng)超35萬,其中企業(yè)開發(fā)者超22萬,增長勢頭迅猛。“訊飛星火大模型的開發(fā)者數(shù)量,在中國是最高的,而且用戶口碑非常好。”劉慶峰說道。
另一方面,積累打通模型和行業(yè)落地的“最后一公里”的經(jīng)驗(yàn),對收集用戶反饋、形成數(shù)據(jù)飛輪也至關(guān)重要。為了加速企業(yè)大模型應(yīng)用價(jià)值落地,訊飛星火V3.5將提供全棧自主可控的優(yōu)化套件。基于全國產(chǎn)化算力打造的訊飛星火V3.5支持異構(gòu)算力調(diào)度,可實(shí)現(xiàn)行業(yè)大模型訓(xùn)練提效90%,支持23個(gè)企業(yè)應(yīng)用場景的敏捷優(yōu)化。
2024,將是大模型的應(yīng)用落地元年,也是國產(chǎn)大模型加速探頂AGI的關(guān)鍵一年。“通過這場發(fā)布會(huì),我們展望一個(gè)充滿希望、孕育著生長能量的春天。相信2024年一定可以實(shí)現(xiàn)星火燎原,通用人工智能不僅能夠在中國各大領(lǐng)域深度而廣泛應(yīng)用,而且我們在源頭技術(shù)創(chuàng)新、在大模型的底層能力上也會(huì)站上全新臺階。”劉慶峰說道。