文 | 周鑫雨
編輯 | 鄧詠儀
當大模型加速應用落地,運行成本就成為各廠商的現實考量。
將模型做小,成為現實市場需求下的趨勢。但模型的Scaling Law(規模定律)已指出,參數規模是決定模型性能的最關鍵因素。如何用更小的參數規模,達到比肩大模型的性能,是需要解決的難題。
“以小博大”的勵志故事,2023年9月發生在法國AI獨角獸Mistral上。其發布的開源模型用7B的參數規模,在MMLU(多任務語言理解)、Knowledge(知識)、Reasoning(推理)、Comprehension(理解)等關鍵指標上均超越了Meta Llama 2的13B模型。
這一個故事,在2024年2月1日的發布會上,也被AI模型層公司面壁智能的CEO李大海不斷提起。
對標Mistral,面壁智能發布了訓練數據規模近1T、參數規模僅2B的模型:聚焦于適配端側硬件的端側大模型MiniCPM-2B。
為什么瞄準端側場景?李大海給出的理由,仍然是旺盛的市場需求,和云端協同的部署趨勢。自2023年下半年起,三星、華為、小米、特斯拉、理想等國內外手機和智駕廠商都發布了適配于終端硬件的大模型。
在終端硬件廠商加速產品AI化的趨勢下,面壁智能認為,成本是大模型的隱形競爭力,“比起size,我們更在意成本”。
以搭載了驍龍855芯片的OPPO手機為例,MiniCPM每秒能處理7.5 Tokens,運行5年后報廢,成本為600元,由此可得170萬Tokens的推理成本僅1元——MiniCPM的推理成本僅Mistral的1/100,GPT-4的1/360。
據介紹,目前MiniCPM-2B在CPU(比GPU計算吞吐量低)上就能跑起來,相較于用GPU才能運行的大模型,能夠降低推理成本。與此同時,即便將大小壓縮75%,MiniCPM的性能也能做到基本無損耗。
在性能上,MiniCPM-2B的中文知識能力、代碼能力、數學能力已經超過Mistral-7B,而英文知識能力、邏輯能力和常識問答能力還存在一定差距。而在測試模型接近人的程度的評測榜單MT-Bench上,MiniCPM-2B的表現超過了Llama 2-70B-Chat。
MiniCPM-2B和Mistral-7B在主流評測集上的測評結果。圖源:面壁智能
MiniCPM-2B和主流模型在MT-Bench上的測評結果。圖源:面壁智能
就實際效果而言,MiniCPM-2B能夠理解“中夾英”的多語言問題,并用法語作答;同時也能實現代碼生成。
MiniCPM-2B的多語言交互。圖源:面壁智能
MiniCPM-2B書寫自身代碼。圖源:面壁智能
為了能夠讓MiniCPM以小博大,面壁智能主要在Infra、算法和數據三個層面,做了技術優化。
在Infra層面,基于集成了訓練、推理、壓縮、微調的全流程高效Infra,面壁智能能夠將推理加速到10倍,將算力成本降低90%。
在算法層面,通過上千次的模型沙盒實驗,面壁智能對模型批次大小、超參數配置等最優訓練配置進行了探索。
在數據層面,用于MiniCPM的1T精選訓練數據,來源于經過數據治理、多維評測的數據工廠。
為了將多模態能力搬上了手機,面壁智能還發布了多模態端側模型MiniCPM-V。
通過將手機調整為飛行模式來模仿野外無信號的情況,面壁智能演示了野外生存情況下人與MiniCPM-V的多模態問答。比如,MiniCPM-V可以識別毒蘑菇和毒蛇,并給出防護建議。模型響應速度接近7 Tokens/秒,幾乎無延遲。
MiniCPM-V有關毒蘑菇的問答。圖源:面壁智能
MiniCPM-V有關毒蛇的問答。圖源:面壁智能
除了MiniCPM-V這款端側多模態模型外,面壁智能對12B的多模態模型OmniLMM進行了開源(GitHub地址):https://github.com/OpenBMB/OmniLMM
相較于MiniCPM-V,OmniLMM不僅支持多模態對話,還支持多模態的實時交互,比如用戶可以實時與模型進行石頭剪刀布的游戲,也可以讓模型實時識別路況。李大海介紹,未來OmniLMM的能力,也將逐步集成到MiniCPM-V上。
OmniLMM有關景點的問答。圖源:面壁智能
目前,MiniCPM已經與國際主流手機機型和CPU進行了配置測試。當然,將模型接入終端設備,依然有不少問題亟待解決。
比如接入后,模型是否還能在端側進行自主學習和迭代?面壁認為,通過高效參數微調技術,目前MiniCPM能在手機夜間充電時段,基于用戶人機交互產生的數據知識和信息進行自主微調,但效果仍有待提高。
再比如,模型如何與搭載不同芯片的硬件進行一對一的適配?除了不斷推動行業標準的建立,面壁認為目前可行的解法是開源,從而讓開發者自行做適配的嘗試。目前,MiniCPM也上線GitHub(內含技術報告):https://github.com/OpenBMB/MiniCPM
無論是端側模型的自我迭代能力,還是軟硬件適配的標準建立,大模型想要進入端側,仍需要全產業鏈的推動。
歡迎交流!