OpenAI 7 月 17 日發(fā)布 ChatGPT Agent,對(duì) Operator和 Deep Research進(jìn)行端到端訓(xùn)練整合,以適應(yīng)網(wǎng)絡(luò)信息研究與預(yù)定下單兼顧類的任務(wù)場(chǎng)景,這也與Manus、Genspark、Comet等初創(chuàng)公司形成直接競(jìng)爭(zhēng)。從實(shí)測(cè)案例與行業(yè)反應(yīng)來看,ChatGPT Agent未表現(xiàn)出明顯優(yōu)勢(shì),卻遭到了Manus、Genspark們的對(duì)標(biāo)硬剛,成為襯托后者差異化優(yōu)勢(shì)的背景板。通過這些對(duì)比,我們也看到背后Agent發(fā)展的路線之爭(zhēng),以及模型大廠與Agent應(yīng)用企業(yè)各自究竟應(yīng)該扮演什么角色,占據(jù)什么生態(tài)位。
ChatGPT Agent是目前核心功能最全的網(wǎng)頁操作與信息研究類Agent
一是ChatGPT Agent屬于端到端強(qiáng)化學(xué)習(xí)訓(xùn)練的Agent模型,與o3同系列。不同于manus、Genspark等用預(yù)設(shè)的工作流和程序引導(dǎo)模型完成任務(wù),ChatGPT Agent將搜索、網(wǎng)頁操作等工具調(diào)用與環(huán)境交互能力內(nèi)化到模型本身,理論上自主規(guī)劃、搜索與糾錯(cuò)能力更好。
表1:主要網(wǎng)頁操作與信息研究類Agent核心功能對(duì)比
(根據(jù)實(shí)測(cè)和網(wǎng)絡(luò)信息整理)
二是ChatGPT Agent 融合 Deep Research 和 Operator 兩大產(chǎn)品。Operator 能夠在網(wǎng)頁上滾動(dòng)、點(diǎn)擊和輸入文本,Deep Research則擅長(zhǎng)分析和總結(jié)信息。整合源于OpenAI發(fā)現(xiàn)用戶通過 Operator 的許多查詢實(shí)際上需要深入研究,比如餐廳預(yù)訂需要先做信息研究等。在同類Agent中,只有智譜AutoGLM沉思做了類似整合,但實(shí)測(cè)更接近于ChatGPT的Operator功能。
三是ChatGPT Agent 網(wǎng)絡(luò)工具與終端工具比較完備。推理型用文本瀏覽器,網(wǎng)頁操作用可視化瀏覽器、圖像生成API補(bǔ)充可視化內(nèi)容生成,以及直接 API 訪問能力等。模型經(jīng)過訓(xùn)練,可自主、靈活地選擇合適的工具組合。 同時(shí),ChatGPT Agent 在官方虛擬云電腦內(nèi)給用戶一個(gè)真實(shí) Linux Shell,能直接運(yùn)行代碼、數(shù)據(jù)分析、調(diào)用API、接入Google Drive、GitHub等外部數(shù)據(jù)等。目前只有 Manus AI相對(duì)可比, Genspark 、Comet等終端能力有限或不具備。
ChatGPT Agent基準(zhǔn)測(cè)試爆表但實(shí)測(cè)未表現(xiàn)明顯優(yōu)勢(shì),是一次穩(wěn)健而平淡的更新
從OpenAI發(fā)布的報(bào)告看,ChatGPT Agent在結(jié)構(gòu)化學(xué)術(shù)問題推理、數(shù)據(jù)分析、網(wǎng)頁交互和電子表格四大維度上對(duì)o3有較大程度的領(lǐng)先。如在“人類的最后考試”(Humanity’s Last Exam)評(píng)估中,ChatGPT Agent正確率41.6%,是o3無工具模式的兩倍(20.3%)。在DSBench測(cè)試中,ChatGPT Agent數(shù)據(jù)分析任務(wù)準(zhǔn)確率87.9%(o3為64.1%),數(shù)據(jù)建模任務(wù)準(zhǔn)確率85.5%(o3為77.1%)。在WebArena網(wǎng)頁交互測(cè)試中,ChatGPT Agent準(zhǔn)確率65.4%,超越o3,接近人類水平(78.2%)。在SpreadsheetBench測(cè)試中,ChatGPT Agent直接訪問.xlsx文件準(zhǔn)確率45.5%,優(yōu)于Copilot in Excel(20%)。
但在同類產(chǎn)品實(shí)測(cè)中,ChatGPT Agent沒有表現(xiàn)出明顯優(yōu)勢(shì)。ChatGPT Agent發(fā)布后,Manus快速回應(yīng),發(fā)布10個(gè)實(shí)測(cè)對(duì)標(biāo)案例,通過財(cái)務(wù)建模、生活規(guī)劃、行程安排、消費(fèi)購(gòu)物、航班篩選等不同場(chǎng)景任務(wù),證明ChatGPT Agent更多聚焦于基礎(chǔ)信息檢索和文本型交付,Manus在可視化呈現(xiàn)、跨平臺(tái)操作和交付形式展示了自身優(yōu)勢(shì)。 Genspark反饋他們用同樣的提示詞,Genspark 的響應(yīng)時(shí)間更短、成本更低,生成結(jié)果的質(zhì)量也“高出好幾倍”。從《OpenAI Agent測(cè)試報(bào)告》12個(gè)案例看(見表2),ChatGPT Agent的成功率、耗時(shí)都不是最優(yōu)的,其中Genspark的確成功率最高、花費(fèi)時(shí)間較少,AI瀏覽器Comet用時(shí)更是低一個(gè)數(shù)量級(jí)。
表2:《OpenAI Agent測(cè)試報(bào)告》測(cè)試小結(jié)
注:來源公眾號(hào)郎瀚威will
分析其中的核心原因,一是ChatGPT Agent本身還處于早期階段,產(chǎn)品打磨不如Manus等完善。如任務(wù)拆解復(fù)雜導(dǎo)致費(fèi)時(shí)成本高、生成PPT細(xì)節(jié)處理粗糙等。Manus、Genspark應(yīng)該是針對(duì)相關(guān)場(chǎng)景(如策劃、調(diào)研等)預(yù)先做了場(chǎng)景搜索提示工程、結(jié)果整理邏輯、用戶界面設(shè)計(jì)等優(yōu)化。二是網(wǎng)頁信息研究類Agent基礎(chǔ)技術(shù)相對(duì)成熟、技術(shù)路徑收斂,常規(guī)任務(wù)難以拉開差距。LLM+多工具整合+虛擬環(huán)境+對(duì)話式交互成為行業(yè)標(biāo)準(zhǔn)模式,各家基準(zhǔn)測(cè)試都比較出色。三是網(wǎng)絡(luò)信息深度研究場(chǎng)景的結(jié)果可驗(yàn)證性較弱,任務(wù)成功與完成度判斷有一定的主觀性,不能充分體現(xiàn)OpenAI Deep Reserach的能力。而在預(yù)定、訂購(gòu)類等可驗(yàn)證的網(wǎng)頁操作場(chǎng)景,各家結(jié)果又普遍欠佳。
背后值得關(guān)注的Agent發(fā)展與競(jìng)爭(zhēng)趨勢(shì)
一是Agent Model與manus類Agent將長(zhǎng)期并行。ChatGPT Agent 在網(wǎng)絡(luò)信息處理場(chǎng)景暫時(shí)未表現(xiàn)出明顯優(yōu)勢(shì),但模型即產(chǎn)品是Agent的重要方向之一。Anthropic Claude實(shí)際是Coding類 Agent Model,模型大廠預(yù)計(jì)會(huì)聚焦高級(jí)數(shù)據(jù)分析、復(fù)雜決策、科學(xué)研究等通用又需從模型架構(gòu)層面優(yōu)化的場(chǎng)景,開展Agent Model訓(xùn)練。同時(shí)在領(lǐng)域收斂、數(shù)據(jù)積累較多的金融、電商、醫(yī)療等垂直場(chǎng)景也能產(chǎn)生超級(jí)Agent Model。Manus 類 Agent 模式依賴人類預(yù)設(shè)的工作流、上下文工程、多模型封裝,以及特定場(chǎng)景的針對(duì)性優(yōu)化,優(yōu)點(diǎn)是可解釋、可調(diào)試、易落地,更適合在不太復(fù)雜的信息搜索整理、標(biāo)準(zhǔn)業(yè)務(wù)流程智能化,以及強(qiáng)依賴場(chǎng)景know-how的具體場(chǎng)景落地。
二是“通用”Agent與瀏覽器Agent面臨正面交鋒。目前兩者都是網(wǎng)絡(luò)信息處理類Agent,理論上瀏覽器Agent更適合輕量級(jí)任務(wù),Manus 和 Genspark 類更能處理復(fù)雜的跨平臺(tái)任務(wù)。但從《OpenAI Agent測(cè)試報(bào)告》看,Perplexity 7月推出的AI瀏覽器Comet執(zhí)行同類任務(wù)速度極快,成功率只是略低于“通用類”Agent。從訪問量看,瀏覽器Agent代表Dia、Fellou與Manus相差一個(gè)量級(jí),但增速很快。這不僅僅是要挑戰(zhàn)Chrome等傳統(tǒng)瀏覽器的地位,也將不可避免地與“通用”Agent形成遭遇戰(zhàn)。作為網(wǎng)頁信息交互的第一入口,瀏覽器具備一定的身位優(yōu)勢(shì)。
圖1:典型“通用”Agent與瀏覽器Agent訪問量比較
數(shù)據(jù)來源:similarweb;單位:萬訪問量
三是模型大廠與Agent應(yīng)用企業(yè)需要明確各自的產(chǎn)業(yè)生態(tài)位。模型大廠更適合聚焦模型能力提升,搭平臺(tái)、建生態(tài)。如Anthropic Claude積極開放API且行業(yè)調(diào)用量最高,推出模型上下文協(xié)議(MCP),快速形成開發(fā)與工具生態(tài);谷歌發(fā)布Agent2Agent (A2A)協(xié)議,聯(lián)手Salesforce等多家企業(yè)和大量開發(fā)者,構(gòu)建企業(yè)Agent應(yīng)用開發(fā)生態(tài)。微軟、IBM等IT應(yīng)用巨頭推出企業(yè)級(jí)Agent應(yīng)用開發(fā)/運(yùn)維平臺(tái);Manus、Genspark、flowith等Agent初創(chuàng)企業(yè)不斷涌現(xiàn)。OpenAI戰(zhàn)略則顯得較為模糊,API開放度不夠,GPT Store未有明顯起色,下場(chǎng)做Agent應(yīng)用,實(shí)際落入與眾多“Manus”競(jìng)爭(zhēng)的局面,行業(yè)反饋平平。
在國(guó)內(nèi),MiniMax Agent、Kimi-K2、 夸克 AI 瀏覽器等也形成一定亮點(diǎn),但受制于資本、模型能力等因素,海外Agent公司實(shí)際占據(jù)了流量的主導(dǎo)地位。國(guó)內(nèi)公司可把握端到端強(qiáng)化學(xué)習(xí)模型與Manus類開發(fā)模式成為重要落地形態(tài)的趨勢(shì),重點(diǎn)開展垂直場(chǎng)景專屬Agent訓(xùn)練打造,同步建設(shè)優(yōu)質(zhì)的Agent發(fā)展生態(tài)。