国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

大小語言模型對比分析及啟示

數碼
TIME
2024-06-21 10:25
天翼智庫
分享

過去一年多來,大語言模型(LLM)從 GPT-3.5、GPT-4 到 Llama等開源模型,一直備受關注。然而,近期一些跡象表明,小語言模型(SLM)正逐漸獲得越來越多的重視,微軟、GOOGLE等AI領域的大佬們紛紛開始下注小語言模型。出現這一趨勢的原因何在,將給運營商帶來哪些啟示?

  大語言模型輕量化漸成趨勢

LLM (大語言模型)的參數數量可以達到數千億甚至數萬億。而SLM(小語言模型) 通常具有數億或數十億個參數,SLM 的訓練和運行所需的時間和資源要少得多,這使得它們更加適合于資源有限的設備和應用。

 1. 多家AI巨頭引領,發布多款SLM小模型 

微軟2023年 9 月發布了 Phi-1.5 版本,13 億參數。1.5版本可以寫詩、寫電子郵件和故事,以及總結文本。在12月14日更新發布了 Phi-2 ,擁有 27 億參數。今年4 月 23 日,微軟發布了 Phi-3 Mini,這是Phi-3系列小型模型中的第一個,Phi-3 Mini 可測量參數僅為 38 億,并在相對于 GPT-4 等大型語言模型更小的數據集上進行訓練,現已在 Azure、Hugging Face 上可使用。Phi-3 Mini 的性能比前一版本更好,與 GPT-3.5 等 LLM 不相上下,微軟后續還計劃發布 Phi-3 Small(7B 參數)和 Phi-3 Medium(14B 參數)兩個版本。

今年2月,Google 發布了 Gemma 2B 和 7B,這兩款模型更適合簡單的聊天機器人和語言相關的工作。Gemma 模型可輕松運行在普通設備上,無需特殊硬件或復雜優化,它提供高效、易用的語言處理體驗。Gemma 在 Hugging Face 的下載量已經突破 400,000 次,并激發了Cerule、CodeGemma等創新項目。性能表現方面, Gemma在MMLU、MBPP等18個基準測試中,有11個測試結果超越了Mistral-7B等模型。

圖1:Phi-3與Gemma、GPT3.5等模型的測試對比(數據來源:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone)

 2. 大語言模型輕量化的幾個特征 

除了原生的SLM小語言模型外,大語言模型也在通過各種手段壓縮規模,以期適應更多的應用場景。模型壓縮的方式主要包括模型量化、知識蒸餾、模型剪枝、低秩適應、權值共享、結構搜索等。目前,多個大語言模型均已推出“小型化”和“場景化”版本,為端側運行提供了基礎。例如,Google PaLM2中最輕量的“壁虎”壁虎(Gecko)可實現手機端運行,速度足夠快,不聯網也能正常工作。Meta在官網上公布了旗下最新大語言模型Llama 3。已經開放了80億(8B)和700億(70B)兩個小參數版本,Llama 3 8B模型在MMLU、GPQA、HumanEval等多項性能基準上均超過了Gemma 7B和Mistral 7B Instruct。

表1:大小語言模型的特征

SLM和LLM的對比

 1. 技術特點 

SLM通常采用傳統的Transformer架構,而LLM則采用更復雜的架構,如GPT-3的解碼器-編碼器架構和Megatron-Turing NLG的解碼器-編碼器-解碼器架構。

大語言模型遵從縮放定律(Scaling Laws),簡單而言就是規模越大,性能越強。相較而言,LLM的特點是性能和泛化能力強,SLM的特點是訓練和運行成本低。

 2. 優劣勢比較 

表2:LLM和SLM的優劣勢比較

 3. 應用場景 

在應用場景上,LLM主要運行于云側,應用于泛場景的通用性和復雜推理任務, SLM主要應用于端側設備和特定領域的任務。由于端側設備數量巨大、存在廣泛, HuggingFace 的CEO Clem Delangue 甚至指出,多達99% 的使用場景可以通過 SLM 來解決。高通的報告也預測,數量可觀的生成式 AI模型可從云端分流到終端上運行。

圖2:數量可觀的生成式 AI模型可從云端分流到終端上運行。(來源:高通:混合AI是AI的未來)

運營商發展大語言模型面臨的問題

 1. 資金、技術、數據、人才等方面存在短板 

LLM可以充分發揮電信運營商云、網、算力等資源的優勢,更好地泛化到新任務和新數據,應用于更廣泛的場景。但是, LLM 的訓練和運行需要大量算力,訓練時間長,部署和維護的難度高,與其它大語言模型一樣,存在偏見和安全風險。不僅如此,與互聯網巨頭比,運營商在資金、技術、數據、人才等方面都存在一定短板。資金上,互聯網巨頭有更廣泛的融資渠道;技術上,與前沿大語言模型相比,運營商大語言模型在參數數量、性能上存在差距,研發處于跟隨地位;數據上,優質數據集的數量和質量有限;此外,AI研發人才也短缺。

 2. 應用場景受限 

LLM大模型的應用場景主要有通用場景,如機器翻譯、問答系統、文本生成等,以及結合行業數據集的行業應用。對于運營商的LLM,目前來看,主要應用場景內部可用于客服、網運,外部可泛化為政企客戶和公眾客戶提供通用的AI服務。

通用的AI服務由于市場已有大量的大模型廠商,競爭激烈。垂直行業應用將是運營商LLM未來最大的市場領域。垂直行業通常有較為專業的數據集,數據質量高,數據規模不一定大,但對數據隱私和安全性要求高。從模型的角度來看, LLM大模型雖然通過泛化能適應這些需求,但付出的各種成本高,且存在安全風險,這將制約運營商LLM的廣泛應用。

 對運營商的啟示

 1. 面向眾多行業應用場景,加強對SLM的研發 

隨著AI技術的不斷發展,SLM 的性能和功能將進一步提升,終端的能力也越來越強,未來越來越多的AI推理工作負載在手機、PC、XR 頭顯、汽車和其他邊緣終端上運行,SLM將會有更大的應用潛力,會有越來越多的場景使用 SLM。

運營商有龐大的客戶群,不同客戶對與AI的需求千差萬別。以政企業務為例,目前政企產品分為標準化產品和平臺、小微ICT項目、復雜集成DICT項目三大類,對于標準化產品和平臺,運用云和LLM的能力,能夠很好地為客戶AI賦能,而對于小微ICT項目、復雜集成DICT項目,很多場景下,SLM會是客戶更佳的選擇。

 2. 用SLM降低研發運營成本,促進創新和迭代 

SLM 的開發和維護成本相對較低,風險也較低,更容易實現創新和迭代。同時,邊緣終端能夠以很低的能耗運行SLM,提供更高的能效,借助端側SLM的能力,能有效降低云側的資源消耗,幫助運營商降低數據中心的能耗,實現企業的降本增效。

不僅如此,SLM還可以幫助構建運營商的AI生態,加強服務能力,增強客戶粘性,提升客戶滿意度。可以通過SLM開源社區、廣泛的SLM客戶群,建立良好的AI生態,利用 SLM 進行快速試錯,探索新的應用場景和商業模式,成熟后還可以與LLM 結合應用于更復雜的場景,促進運營商各類業務的發展。

 3. 通過LLM和SLM結合建立差異化競爭優勢 

在 LLM 領域,大型科技公司已經占據了領先地位,單純通過LLM的競爭,運營商較難取得優勢,對于一些內部數據集規模比較小的客戶來說,使用小模型更具性價比。運營商可以通過LLM和SLM結合,在特定領域形成差異化競爭優勢,例如專注于垂直行業,采用低成本、高性能的 SLM 模型,以較低的成本實現服務的智能化升級。而對于客戶更加復雜的AI需求,則可通過網絡和云端LLM來實現,解決SLM性能和知識的局限問題。

根據客戶的業務需求選擇合適的模型,通過云側LLM和端側SLM相結合,相信運營商能夠建立差異化競爭優勢,構筑企業更加堅實的護城河。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時通知我們。

相關熱點

  近日,備受關注的梁靜茹演唱會“柱子票”案終于迎來了一審判決——主辦方被判進行階梯式退還部分票款。  案件起因是消費者倪某等9人購買了梁靜茹上海演唱會的門票...
互聯網
  寧德時代控股的北京時代電池基地項目日前在北京開工。據悉,這是寧德時代在華北地區的首座電池工廠,分兩期建設,計劃于2026年投產,為北汽、小米汽車、理想汽車等新能源...
業界