隨著人工智能技術的飛速發展,大模型在各個領域展現出強大的能力。其中,可操控終端設備的大模型更是為RPA(機器人流程自動化)行業帶來了革命性的變化。本文將介紹Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架三種可操控終端設備的大模型,并探討其對傳統RPA行業的影響以及未來發展趨勢。
引言
RPA(機器人流程自動化)作為一種通過模擬人類前臺操作來執行重復性任務的技術,近年來在各個行業得到廣泛應用。然而,傳統的RPA技術難以適應復雜場景。隨著可操控終端設備的大模型的出現,傳統RPA行業將會收到新技術的沖擊。
在電影《鋼鐵俠》中,我們看到了一個令人印象深刻的智能助手——賈維斯,它是一個能夠理解自然語言、執行復雜任務的人工智能系統,它不僅能夠控制鋼鐵俠的裝備,還能夠進行信息檢索、數據分析、輔助決策等。
如今,隨著可操控終端設備的大模型的出現,“賈維斯”式的智能助手已經不再是遙不可及的夢想。Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架等大模型,已經具備了部分類似“賈維斯”的功能。它們能夠理解用戶的自然語言指令,并執行相應的操作。這些大模型的出現,標志著人工智能技術正在從簡單的自動化工具向智能化的助手轉變。
本文將介紹Anthropic的Claude 3.5 Sonnet、智譜的AutoGLM以及微軟的OmniParser框架三種可操控終端設備的大模型,并探討其對RPA行業的影響以及未來發展趨勢。
可操控終端設備的大模型
Claude 3.5 Sonnet
Anthropic的Claude 3.5 Sonnet是一個基于Transformer架構的預訓練語言模型,擁有1750億參數。其具備強大的自然語言理解能力,新增的 “computer use” 功能,能夠理解用戶的指令并執行相應的操作,讓其能夠如同人類一般與電腦進行交互,例如打開應用程序、瀏覽網頁、輸入文本等。在 OSWorld 基準測試平臺上,Claude 3.5 Sonnet 在僅使用截圖的測試類別中得分 14.9%,遠超第二名的 7.8%。雖然這一成績低于人類水平,但在人工智能領域已是一大突破。同時,Claude 3.5 Sonnet 開放了API與計算機界面的交互,便于開發人員基于該模型進行二次開發。
AutoGLM
智譜清言基于其GLM基座模型研發了新的具備“Phone Use”功能的 AutoGLM 。用戶可以通過文字/語音指令,使其模擬人類動作操作終端。例如,通過語音指令可以完成朋友圈點贊、寫評論、電商網購、O2O 平臺寫五星好評、外賣下單、資料檢索篩選、高鐵購票等多個任務。其操作流程簡單便捷,用戶可以說 “幫我點個黃燜雞米飯外賣”,AutoGLM 就會自動打開外賣軟件,搜索黃燜雞米飯,選擇訂單頁面選項,最后加購下單。
OmniParser 框架
微軟的 OmniParser 框架是一款解析和識別屏幕上可交互圖標的 AI 工具。它結合可交互區域檢測模型、圖標描述模型和 OCR 模塊等,不需要 HTML 標簽或視圖層次結構等顯式基礎數據,能夠在桌面、移動設備和網頁等上跨平臺工作。OmniParser 除了識別屏幕上的元素,還能將這些元素轉換成結構化的數據。同時,OmniParser框架是一個用于構建可操控終端設備的大模型的框架,GPT-4V 在使用 OmniParser 插件后,圖標的正確標記率從 70.5% 提升至 93.8%。OmniParser 的發布為開發者提供了一個強大的工具,助力創建更智能、更高效的用戶界面驅動智能體。
可操控終端的大模型與傳統RPA技術的比較
Claude 3.5 Sonnet 能夠準確計算需要移動鼠標的像素數,從而精準地點擊屏幕上的正確位置。智譜的 AutoGLM 基于自進化在線強化學習框架(WEBRL)通過自適應學習策略,在真實環境中動態調整任務難度,實現任務的逐步迭代和優化,提升執行效率和準確度。微軟的 OmniParser 通過其中的圖標檢測模型,以及功能描述模型,用于識別可互動的區域、分析這些區域的功能。大模型通過大量的多模態訓練數據,能夠理解自然語言和圖片的含義,基于屏幕截圖更好地理解當前狀態,從而執行多種復雜任務。
而傳統 RPA 技術則是一種軟件解決方案,通過模擬人類用戶的操作行為,自動化執行重復性高、規則性強的任務。傳統RPA 機器人可以登錄應用程序、移動文件、復制數據、填寫表單等,幾乎可以完成任何通過用戶界面進行的任務。它主要側重于執行具體的操作流程,對于復雜的語言理解和生成能力相對較弱。
可操控終端的大模型對傳統RPA行業的影響
降低學習門檻
傳統的RPA技術需要用戶具備一定的編程基礎,而可操控終端設備的大模型則無需用戶編寫代碼,只需通過自然語言指令即可實現自動化操作,極大地降低了RPA的學習門檻。
提高自動化效率
可操控終端設備的大模型能夠理解用戶的指令并執行相應的操作,從而實現更高效的自動化流程。例如,用戶可以指令模型打開應用程序、瀏覽網頁、輸入文本等,無需手動操作,節省了大量時間和精力。
適應復雜場景
大模型為RPA 裝上了“大腦”,賦予了RPA更深層次的理解和學習能力。大模型通過深度學習算法,能夠理解復雜的語言邏輯和上下文關系,更好地解析用戶的意圖并執行相應的操作,適應更復雜的場景,從而對各種任務進行智能分析和規劃。RPA 在大模型的加持下,不再僅僅是機械地執行重復性任務,而是能夠處理更為復雜和抽象的任務。
大模型在RPA行業的未來發展趨勢
隨著大模型技術的迭代,可操控終端設備的大模型在RPA行業展現出巨大的潛力。未來,這類模型將朝著以下幾個方向發展:
一是結合其他人工智能技術。可操控終端設備的大模型將會與其他人工智能技術相結合,使系統更好地理解用戶的訴求,實現更智能化、自動化的流程,更加精準地完成用戶需求、提升用戶體驗。
二是自適應。可操控終端設備的大模型將會具備更強的自適應能力,能夠根據不同的場景和任務進行自我調整,從而適應更復雜的自動化需求。
三是個性化。可操控終端設備的大模型將會根據用戶的行為和偏好進行個性化定制,從而提供更加個性化的自動化服務。
總結與建議
可操控終端設備的大模型為傳統RPA行業帶來了革命性的變化,極大地降低了RPA的學習門檻,提高了自動化效率,并推動了RPA與其他技術的融合。未來,可操控終端設備的大模型將會在RPA行業得到更廣泛的應用,并推動RPA行業向智能化、自適應和個性化的方向發展。為了更好地推動可操控終端設備的大模型在RPA行業的應用,因此建議:
一是完善生態系統。 建立完善的生態系統,包括開發工具、API、社區等,方便開發者使用和開發可操控終端設備的大模型。
二是培養企業員工對大模型的掌握。對于需要處理大量重復性工作的行政人員,培養其具備人工智能大模型使用的能力,使未來大量的機械、流程化的操作可以依靠大模型來快速完成,行政人員僅需負責監督大模型處理結果是否正確,節約人工成本。