視頻生成模型Sora橫空出世,讓影視、廣告業乃至教育界人士頓生危機感——
“阿拉丁神燈”?“潘多拉魔盒”?
“現實不存在了?”用“你方唱罷我登場”來形容春節假期最后兩天大洋彼岸的“瘋狂”,再貼切不過了。北京時間2月16日,谷歌的Gemini Pro 1.5還沒出幾個小時的風頭,天一亮,全世界的聚光燈就集中在了OpenAI的Sora身上。
Sora,新型視頻生成模型,它可以根據簡短的文字提示(prompt),將其轉化為長達一分鐘的高清視頻,鏡頭感堪比電影。
未來,各種Sora視頻或將現身并“占領”視頻社交平臺,其對現實的影響與改變,可謂巨大。
AI視頻要“變天”了
Sora“逆天”在哪兒?它不僅能夠根據文字指令創造出既逼真又充滿想象力的場景,而且能生成長達1分鐘的超長視頻,還是一鏡到底那種。
從發布的視頻來看,60秒的視頻中,視頻主體與背景保持了高度的流暢性與穩定性,在一個視頻里實現多角度鏡頭,分鏡切換符合邏輯且流暢。此外,Sora對于光影反射、運動方式、鏡頭移動等細節處理非常到位。
“這座城市潔凈無瑕,到處可見先進的未來式有軌電車、絢麗的噴泉、巨型的全息投影以及四處巡邏的機器人。”……OpenAI首席執行官山姆·奧特曼也親自“下場”,在社交媒體上根據網友給出的prompt輸出視頻。
Sora的視頻效果,幾乎和人工拍攝不相上下,由此帶來的強大沖擊讓無數人感嘆:“現實,不存在了。”OpenAI是怎么做到的?根據官網介紹,“通過一次性為模型提供多幀的預測,我們解決了一個具有挑戰性的問題。”數小時后,Sora的技術報告發布,盡管依舊“很OpenAI”——不包括模型和實現細節。技術報告中,“里程碑”是關鍵詞。Sora還能將靜態圖像轉化成視頻,以該圖像為背景,在視頻中添加一些動態的元素,使圖像變得更加生動。
據悉,OpenAI目前沒有向公眾發布Sora的計劃,但將首次開始與第三方安全測試人員共享該模型。
對相關行業具顛覆性
紐約大學助理教授謝賽寧直言:“Sora將改寫整個視頻生成領域。”謝賽寧分析,Sora應該是建立在DiT這個擴散Transformer之上;在視頻壓縮網絡上可能采用VAE架構,區別就是經過原始視頻數據訓練。他推算Sora可能有大約30億個參數,并表示:“Sora或許并不需要人們想象中的那么多GPU來訓練,如果真是如此,Sora的后期迭代將會非常快。”
英偉達人工智能研究院首席研究科學家Jim Fan認為,Sora是一個數據驅動的物理引擎,稱這是視頻生成領域的GPT-3時刻,“回到2020年,GPT-3不是一個很完美的模型,但是它有力證明了上下文學習的重要性,所以不要糾結于GPT-3的缺陷,多想想后面的GPT-4”。
360創始人周鴻祎也發布微博,提到自己對Sora的看法。在他看來,Sora只是小試牛刀,它展現的不僅僅是一個視頻制作能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。周鴻祎寫道:“這次OpenAI利用它的大語言模型優勢,讓Sora實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界。”他認為,AI不一定那么快顛覆所有行業,但它能激發更多人的創作力,“今天Sora可能給廣告業、電影預告片、短視頻行業帶來巨大的顛覆,但它不一定那么快擊敗TikTok,更可能成為TikTok的創作工具”。
周鴻祎也直言:“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube和TikTok上的視頻都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,這就離AGI真的不遠了,不是10年、20年的問題,可能一兩年很快就可以實現。”
人才培養模式需創新
全國政協委員、上海科技館館長倪閩景在《Sora只是開始,教育真正的挑戰來了》一文中指出,Sora的出現,首先會讓影視行業、廣告行業的專業人士瑟瑟發抖,但是需要瑟瑟發抖的顯然是教育行業。
“無論是ChatGPT還是Sora,都僅僅是開始,以強大算力和算法支持的數字大腦,將在學習能力、學習范圍和學習深度上遠超人類,人類只有依靠人工智能一起協同學習,才是教育的出路。”倪閩景認為,人類學習將進入超級學習階段,教育的邏輯將改變:首先,重新定義知識,從知識到知與識;其次,重新定義學習,從工具到本能需要;最后,重新定義創造,從創造東西到創造體驗。
倪閩景寫道:“Sora在英文中有小鳥在空中詠唱的意思,這個淺淺的人工智能詠唱,如果能夠讓所有教育者聽懂,那么我們是否會對各種無謂的內卷釋然并放下呢?”
21世紀教育研究院院長熊丙奇認為,比感慨AI淘汰傳統職業更重要的是,如何直面這一挑戰,應對這一新的時代發展趨勢。其中,最為關鍵的是,必須改革教育、創新人才培養模式。
他一針見血地指出,近年來,我國高校新增不少人工智能、大數據管理與應用專業;各地亦在大力推進教學數字化變革。不過,這些教育變革,存在兩大值得關注的傾向:知識化傾向、應試化傾向。
熊丙奇表示:“如果不推進破除基礎教育存在的功利化、短視化問題,AI+教育等技術變革,也難以帶來人才培養模式的創新,更遑論提高人才自主培養質量,造就拔尖創新人才。”
他感慨,過去20多年來,我國教育界一直在求解錢學森世紀之問——“為什么我們的學校總是培養不出杰出人才?”在Sora刷屏、AI又取得突破后,如何求解錢學森世紀之問也更顯緊迫。
“對此,要形成基本共識,那就是,只靠技術手段難以推進人才培養模式改革,必須改革教育管理與評價體系。”他表示。
警惕“潘多拉魔盒”
在Sora橫空出世前,OpenAI首席執行官山姆·奧特曼就曾表示,人工智能有望在推理能力和可靠性、多模態、可定制化和個性化三個領域大幅提升,并認為,至少在未來5到10年內,AI大模型技術將處于一個非常陡峭的成長曲線上。
值得關注的是,就在Sora發布的同日,谷歌也發布其大模型矩陣的最新力作——Gemini 1.5,其將穩定處理上下文的上限擴大至100萬Tokens(詞元),這代表它能一次處理大量的信息——包括1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬字的代碼庫。
新事物,顯然無法做到“完美”。OpenAI明確指出,Sora可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。這一模型還可能混淆提示的空間細節,并且可能難以精確描述隨著時間推移發生的事件——而這些缺陷或將使Sora生成一些不合邏輯的東西。
據了解,OpenAI內部仍在開展模型倫理側的對抗性測試,比如錯誤信息、仇恨內容、偏見內容,至于色情暴力等,會在文本輸入時就被拒絕。
近兩日,也有一些人工智能業內人士向記者表示,從技術角度來看,Sora是非常重大的飛躍,但“硬幣有兩面”,它存在潛在的濫用可能,“在AI視頻構建的世界中,‘眼見為實’行不通了,人們眼睛看到的東西,或許無法作為判斷的依據”。
是“阿拉丁神燈”還是“潘多拉魔盒”,顯然現在下結論為時過早。該業內人士同時表示,對于新技術的到來,需要社會足夠的包容性;同時,在大規模推向社會前,務必“系好安全帶”,做好應對風險的準備。
本報記者 郜陽
來源:新民晚報