語言大模型(LLM)主導的生成式AI(GenAI)毫無疑問將是未來幾年最重要的生產力工具,不但突破以前AI應用無法突破的極限,而且將重塑各行各業,并深刻改變企業的各個產業環節。
“未來已至,只是還沒有均勻分布”。隨著數據量的爆炸性增長、高度可擴展的算力的普及、算法的突破,以及機器學習技術與工具等的不斷進步,生成式AI登上了時代的舞臺。那么企業如何開啟GenAI的新征程呢?
7月6日,2023世界人工智能大會(WAIC)在上海隆重開幕。作為2023世界人工智能大會的戰略合作伙伴,第六次參加的星環科技發揮大數據基礎軟件方面的優勢,在大會上展出了大模型應用開發全周期的技術和產品,在算力及基礎軟件層,包括星環分布式向量數數據庫Hippo、分布式圖數據庫StellarDB、大數據開發工具TDS等眾多的基礎軟件與工具;在開發者工具層,提供了大模型統一運營管理平臺Sophon LLMOps等,實現對模型訓練、調優;在應用層則是面向用戶的領域大模型,如星環無涯Infinity和星環SoLar求索。
同時,7月7日,星環科技還將在WAIC上舉辦“大模型時代的未來數據技術”論壇,讓大數據智能化、多模態、平民化,將擁有廣闊前景的GenAI技術提交給每一個企業用戶手中,讓企業開啟大模型和生成式AI應用的新征程!
企業自有大模型應用構建流程圖
金融、能源、交通等每個行業都會有自己的領域大模型
星環科技創始人、CEO孫元浩在大會上表示,未來在金融、政府、能源、交通等每一個行業與領域,都會誕生領域或者行業的大模型,這些大模型具有專家的能力,可以在上面構造復雜的應用。
在特定領域,領域大模型將會成為發展的主流。比如金融行業,會出現金融量化大模型,為基金經理投資提供決策輔助支持;在傳統行業比如冶金領域,基于大模型驅動的控制技術應用將得到快速發展等。
在領域大模型落地和發展中,不僅需要長期積累高質量的數據、經驗、流程和知識,利用行業積累對領域模型調優,利用業務反饋持續提升大模型,而且需要擁有基礎領域模型、基礎開發軟件、基礎工具軟件,以保證行業領域大模型的持續提升。
由于大模型反饋的結果是基于對訓練語料的學習而產生的答案,因此行業大模型在具體的落地過程中,需要學習大量行業的專精語料和經驗知識,才能確保返回結果的精準性和專業度。
在大模型應用的實際業務工作中,往往會因為新發布的政策法規、新發生的行業重大事件,以及最新的生產經營情況變化等,需要做出快速響應。相應地,基于歷史語料和經驗知識訓練的領域大模型要想對瞬息萬變的經營環境做出及時的策略調整和反饋,就需要不斷通過新增訓練語料和實時信息來進行反饋結果的調優。
大模型提出了一種新的人機交互范式,但“一招鮮吃遍天”的大一統解決方案較難實現,圍繞大模型在完成對已有業務的增值和創新中,需要使用向量數據庫、圖數據庫、知識圖譜、大模型編排和構建工具等,彌補大模型本身的實時性、幻覺缺陷或者長輸入難題,組合、串聯、增強各業務零散方案,統一到大模型的交互范式中去。
孫元浩認為,在現有數字化和智能化轉型中,我國應該構建供應鏈安全的、自主可控的、豐富的、可信的大模型生態,并直接對業務的增強、融合、創新做出價值貢獻。
星環科技作為一家大數據基礎軟件供應商,依然會專注在基礎軟件領域,將致力于做好兩點:一是為行業提供一系列基礎軟件和工具,結合客戶資深的行業知識、行業積累,讓客戶、合作伙伴能夠打造出自己的行業領域大模型,并在大模型上開發出AI應用;二是在擅長的領域研發領域基礎大模型,使得大數據取數分析等這一專業過程變得更加平民化。
星環無涯Infinity和星環SoLar求索兩大領域大模型亮相
目前通用大模型商業化落地面臨不少問題,如大模型雖然在理解人類自然語言、歸納生成文本、圖像生成上等有驚人的表現,但是它依然無法理解行業術語,也不能夠執行行業的特定任務,還不能像專家一樣,針對行業做分析、推理和決策。
另一方面,企業要構建行業大模型,需要投資算力、基礎大模型、LLMOps工具鏈、語料庫、訓練指令集,還需進行上層應用的開發。同時,大模型訓練的成本很高,導致其生成的內容中數據沒能及時更新,同時大模型還會存在幻覺問題,需要知識庫校正結果。在具體場景中的商業化落地,通用大模型還不能滿足準確、可信、安全、可溯等高需求,還會存在數據安全、倫理等問題。
在今年的WAIC上,星環科技的兩大領域大模型——金融領域大模型“無涯”(Infinity)和大數據分析大模型“求索”(SoLar)成功化解以上挑戰,開始投入應用,受到用戶的歡迎。
其中,星環無涯Transwarp Infinity支持股票、債券、基金、商品等市場事件的全面復盤、總結及演繹推理,以及政策研報的深度分析,為基金經理提供決策輔助。
具體而言,星環無涯Transwarp Infinity金融大模型是業界首款面向金融智能量化投研的領域大模型,將在金融投研、量化投資和智能推理領域大顯身手,有力輔助分析師、研究員和投資經理的日常工作,幫助企業更好地應對復雜的市場環境和業務需求,持續促進整體行業的降本增效與科技創新。
星環無涯融合了輿情、資金、人物、空間、上下游等多模態信息,具備強大的理解和生成能力,支持股票、債券、基金、商品等市場事件的全面復盤、總結及演繹推理,以及政策研報的深度分析。基于事件驅動與深度圖引擎,星環無涯支持事件語義刻畫、定價因子挖掘、時序編碼、異構關系圖卷積傳播,進而構建包含事件沖擊、時序變化、截面聯動和決策博弈等多個維度的量化投研新范式。
從應用上看,無涯Infinity金融大模型擁有海量金融專業語料和輿情工商產業鏈大宗衛星等多源數據,可溯因的標準化因子和歸因解釋體系,高精準、強邏輯的事理分析與推斷力,專注于金融領域的大語言模型架構,背靠大數據全生命周期技術棧等優勢。
而Transwarp SoLar具備大數據行業需求理解、推理、各類(含多模型)結構化查詢語言和OpenCypher代碼生成、文本生成、嵌入向量生成、知識推理等能力。
借助這一領域大模型,企業的業務人員、數據分析人員以及業務管理者只需使用自然語言,就能利用Transwarp SoLar大模型獲取所需的數據分析、展示和報告,輕松地應對各種復雜的數據分析挑戰,并快速獲得有價值的數據洞察,為企業的業務增長提供原動力。
星環求索大模型基于通用大語言模型,通過對大數據分析領域語料的重新訓練微調而產生,相較于通用大語言模型,可以更好地理解大數據分析領域的專業術語、縮寫、常見詞匯和語法,更適合用于大數據分析領域的自然語言處理任務。星環求索讓非專業用戶在無需掌握數據庫編程語言的前提下,能夠通過自然語言進行自由的數據查詢、分析和展示。
星環求索大數據分析大模型擁有眾多優勢,包括行業基因,在大數據分析領域擁有超過10年的積累,深刻了解該行業的需求和挑戰;性能優異,基于Sophon LLMOps大模型開發工具進行大模型的微調,性能表現遠勝開源模型;迭代提升,自主研發了SQL眾包工具,持續根據數據驅動來提升模型性能;支持多模,產品支持TDH多模型查詢語法,可以查詢一切可查詢的數據等。
大模型基礎開發軟件與工具讓企業便捷構建領域大模型
在WAIC上星環科技另一個吸睛的地方就是為領域大模型發展提供的一系列基礎軟件和工具,不僅包括模型持續提升和持續開發工具Sophon LLMOps,可以對大模型進行微調,也包括向量數據庫、圖數據庫、知識圖譜等軟件,讓客戶、合作伙伴能夠打造出自己的行業領域大模型,并在大模型上開發出AI應用。
作為星環科技自主研發的一款綜合性大模型統一運營管理平臺,Sophon LLMOps為用戶打通從數據接入和開發、提示工程、大模型微調、大模型上架部署到大模型應用編排和業務效果對齊的全鏈路流程,從而實現針對大模型的數據和分析的持續提升。
針對智能問答系統在各個業務環節中的應用需求,Sophon LLMOps提供了領域智能問答解決方案。借助星環 Sophon LLMOps ,用戶可以輕松完成數據采集、知識沉淀、大模型迭代提升的完整閉環。通過跨領域知識的學習和調優,大語言模型能更好地理解不同領域的專業術語、縮寫、常見詞匯和語法,承擔統一的語義理解功能,解決業務領域性問題。
作為一款企業級云原生分布式向量數據庫,星環分布式向量數據庫Hippo支持存儲、索引以及管理海量的向量式數據集,提供向量相似度檢索、高密度向量聚類等能力,有效地解決了大模型在知識時效性低、輸入能力有限、準確度低等問題,讓大模型更高效率地存儲和讀取知識庫,降低訓練和推理成本,激發更多的AI應用場景。
在賦予大模型擁有“長期記憶”的同時,Hippo還可以協助企業解決目前最擔憂的大模型數據隱私泄露問題。通過建立垂直領域的知識庫,對大模型輸出結果進行校正,可以提高結果的精準度,在一定程度上解決“AI幻覺”問題。此外,通過星環Hippo對向量數據進行存儲,有效解除大模型對輸入的限制,并且大模型在安全機制下訪問向量數據庫中的隱私數據,可以充分保證數據安全,杜絕隱私泄露風險。
星環分布式圖數據庫StellarDB和知識圖譜平臺Sophon KG聯合,與大模型可視化端到端構建工具一起,提供了知識抽取融合、知識建模、知識圖譜生成存儲、基于大模型的知識問答等閉環功能。客戶以知識圖譜作為大語言模型提示即可發起模型微調,以較低代價就可獲得行業的專屬大語言模型問答應用。
將向量數據庫Hippo、圖數據庫StellarDB等與大語言模型結合,可以更低成本、更高效地構建特定領域的大模型應用,可以解決大模型目前存在的三大問題:一是能夠把實時的知識、變化的信息放到大模型中;二是能夠校正結果的準確性,極大地提升精準度;三是構建相應的知識圖譜,增強大模型的能力。
另外,針對目前各行業用戶在落地廣泛業務需求分析、處理多重數據模態對接、跟進高度定制場景問題解決、運營多源多框架AI模型等方面的問題,星環科技自主研發的一站式智能分析工具平臺Sophon提供“六易三倉兩中心”的功能服務,能夠保障企業數據到智能應用的落地,實現AI能力平民化、AI價值最大化。
例如某制造業客戶通過Sophon的AI技術以及視頻、圖像、時序等多模態數據的聯合分析技術,對其生產的鋼管材進行缺陷檢測識別,支持夾渣、未焊透、未熔合、氣孔、裂紋5類基本缺陷類型的識別,并支持新增和識別隨著日常的生產不斷涌現的新缺陷。
某德國汽車品牌基于Sophon的多模態數據分析能力,盤活了監管機構、來源網站、法規條款(PDF等)等多模態的存量數據,并且通過文本分析、詞法分析、糾錯和統一轉換等文本理解和意圖識別模型,實現了數據知識沉淀,以及行業法規條款的自動語義檢索和問答,幫助內部員工快速觸達監管條款細節,提升效率。
利用星環科技的基礎開發軟件與工具,企業都可以便捷構建領域大模型,讓生成式AI應用服務企業業務創新。
7月7日-8日,2023WAIC-星環科技精彩繼續。