文|王怡寧
編輯|尚恩
最近AI視頻賽道大火,Pika推出1.0版本,并宣布融資千萬美金,出盡風頭。
而作為AI視頻生成的老大哥,現象級產品Gen-1、Gen-2的開發商Runway突然宣布組建團隊開發通用世界模型(General World Models,以下簡稱GWMs),目標是創建一種不同于大語言模型的,并能模擬現實世界的人工智能系統。
Runway喊話要做GWMs后,立即就引起眾多網友的質疑。
有人就表示:
這就是加入了視頻、音頻、文字和圖片的多模態大模型唄
還有人直接說:“這是條不錯的視頻,Ruben(視頻中的小狗)也很可愛”。(但直接忽視了新模型)
△圖源:Twitter
Runway想做的世界模型是什么樣的?為何要在這時候選擇做世界模型?
用世界模型來模擬世界
對于大部分用戶而言,人工智能在過去一年的發展速度確實已經超乎我們的預期和想象,但當我們驚嘆于大語言模型竟然能夠流暢地與我們對話時,幻覺問題讓大模型們時不時“胡言亂語”或“答非所問”的情況也讓實際的使用體驗大打折扣。
而這種問題并不僅僅存在于大語言模型領域,在AI擴圖和AI視頻生成中也屢見不鮮,比如AI生成圖片中經典的六指問題:
△圖源:Twitter
就連Runway自家的產品Gen-2也避免不了這一問題。對此,Runway在新發布的3分鐘視頻內嘗試解釋這一問題的根源——現有的大模型缺乏對真實世界全面的了解。
以大眾最為熟知的LLM(大語言模型)為例,盡管可以生成詩歌、文章甚至電影,但LLM實際只了解語言領域的規則,因此遇到不了解的問題時,常常“一本正經地胡編亂造”。
它們的底層范式是:大模型+大數據=掌握關于世界更多的知識,這種范式也導致了普遍的幻覺問題,而同樣的情況也出現在AI視頻生成工具中。
事實上,Runway這次提出的通用世界模型概念,正是想要回應和解決這一問題。Runway將“世界模型”定義為一種人工智能系統,它能建構對環境的內部再現,并且用來模擬該環境中的未來事件。
簡言之,Runway希望新模型能夠盡可能接近我們生活的真實世界,模擬各種各樣的情況和互動。
LeCun力挺,但Runway想搞點不同的
「世界模型」并不是Runway首創的概念。圖靈獎獲得者Yann LeCun去年就提出過這一概念,用于描繪他理想中的、更接近人類真實水平的AI。
他曾在公開演講中批評GPT大模型,認為根據概率生成自回歸的大模型,根本無法破除幻覺難題,甚至斷言GPT模型活不過5年。
LeCun希望能夠創造出一個可以學習世界如何運作的內部模型,基于此,他和他的團隊在今年6月發布了「類人」的人工智能模型I-JEPA,讓模型像人類一樣學習關于世界的常識背景知識。
△圖源:Twitter
不過目前看來,盡管他們的論文在發布時收獲了不少的掌聲與期待,但半年過去了,LeCun的世界模型似乎還未找到順利落地的途徑。這或許也是大眾對Runway持保留態度的原因。
那么Runway想搞的世界模型,是啥樣的?
對于如何開發新模型,Runway在視頻中透露了部分想法,GWM要建立的是一種心智地圖(mental map),讓模型更多了解關于世界的“為什么”和“怎么樣”。
要實現這一想法似乎還面臨著不少挑戰,Runway團隊也已經認識到了這點。他們對GWM的介紹中提到,眼下需要解決的兩個問題是:
1、這些模型需要生成一致的環境映射,以及在這些環境中導航和交互的能力。
2、模型不僅需要捕捉世界的動態,還需要捕捉其居民的動態,其中還包括建立現實的人類行為模型。
△圖源:Twitter
盡管外界對此反應平平,Runway顯然已經下定決心組建團隊,開始招兵買馬,公司的官方網站上已經開放了一批新的職位招聘,范圍涵蓋機器學習、應用研究以及數據基礎設施等多個領域。
△圖源:Runway官網
One More Thing
回看AI視頻生成賽道,由Pika 1.0點燃的熱情不減反增。從最早一批拿到Pika測評資格的用戶反饋來看,目前對Pika 1.0的實際效果和技術水平的評價也呈現兩極分化的局面。
一部分用戶盛贊Pika 1.0 是他們目前用過最好的AI視頻生成工具,也有一些discord用戶在實測后發現,效果與其他類似工具并有沒明顯差距。
國內巨頭也紛紛下場布局AI生成動畫,阿里和字節的競爭更是到了面對面的地步——阿里近日發布名為“Animate Anyone”的AI項目,稱只需要一張圖片和一段骨骼動畫,就可以為任何人制作視頻。字節緊隨其后推出“MagicAnimate”,并且直接實現了開源。最終,戰局以阿里迅速發布“DreaMoving”回擊暫時中止。
有趣的是,風頭無兩的Pika Labs成立的契機之一,正是兩位聯合創始人的作品在Runway舉辦的第一屆AI movie Festival中落選。在最近的一次訪談中,創始人Chenlin Meng也提到目前Runway、Genmo、Imagen Video等能夠生成的視頻質量水平相近,都存在不少“artifact”(技藝),不過這也恰恰說明了這一領域還有很多技術創新和突破的空間。
Chenlin Meng將目前的視頻生成技術比作“GPT-2時期”,未來的競爭格局還有很多變數。GWM能否幫助Runway彎道超車,仍需拭目以待。
歡迎交流