文 | 周鑫雨
編輯 | 蘇建勛
2023年4月,成立于紐約的Runway AI發布了一段用AI生成的視頻:模糊卡頓、物體扭曲,且僅4秒;
四個月后,Runway將文生視頻的視頻效果拉到了4K的超逼著高度,實現了鏡頭的連貫穩定。而視頻的最大長度也從4秒,提升到了18秒——這也是2023年文生視頻的“時長天花板”。
然而,就在北京時間2024年2月16日凌晨,“天花板”又被打破——OpenAI又出王炸,發布了可以生成60秒視頻的AI模型Sora。
OpenAI官宣Sora。
同樣在2月16日發布的谷歌最新多模態模型Gemini Pro 1.5,則被Sora迅速奪走了關注度。
網友為Gemini和Sora制作的梗圖。
根據OpenAI官方發布的推文和技術報告,Sora能力的革命性可以被提煉為:最長生成60s視頻、鏡頭的前后一致性、超逼真。
從官方發布的視頻demo而言,Sora只需要輸入包含“構成元素、環境、行為及發生順序、視頻風格”等關鍵因素的Prompt(提示詞),就能生成不同風格的高清、連貫,且具有豐富運鏡和轉場的60s級視頻。
比如生成包含人物和城市元素的視頻:
提示詞:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。
Sora生成視頻(原視頻為60s,文中截取20s,畫質受gif大小限制有所壓縮)。圖源:OpenAI
Sora也能生成動物和自然風光:
提示詞:幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近,它們長長的毛茸茸的皮毛在風中輕輕飄動,遠處覆蓋著積雪的樹木和雄偉的雪山,午后的陽光下有縷縷云彩,太陽高高地掛在空中距離產生溫暖的光芒,低相機視角令人驚嘆地捕捉到大型毛茸茸的哺乳動物,具有美麗的攝影和景深。
Sora生成視頻(畫質受gif大小限制有所壓縮)。圖源:OpenAI
Sora生成的視頻已經能夠達到逼真的效果。不過,用3D和動漫風格生成虛擬場景對Sora而言也不在話下:
提示詞:動畫場景的特寫是一個毛茸茸的小怪物跪在融化的紅蠟燭旁邊。藝術風格是 3D 和現實的,重點是燈光和紋理。這幅畫的氣氛是一種驚奇和好奇,怪物睜大眼睛、張開嘴巴凝視著火焰。它的姿勢和表情傳達出一種天真和俏皮的感覺,就好像它第一次探索周圍的世界一樣。暖色調和戲劇性燈光的使用進一步增強了圖像的舒適氛圍。
Sora生成視頻(畫質受gif大小限制有所壓縮)。圖源:OpenAI
突破時長和逼真的瓶頸, Sora摸著DALL-E過河
在半年前,在保證生成畫質的前提下時長僅僅是突破10秒,對于多數視頻模型而言都是難以企及的高度。
這是由于循環網絡、生成對抗網絡、Diffusion模型等主流視頻建模范式,通常只能學習某一小類的視覺數據、較短的視頻或者固定大小的視頻。
這意味著,此前主流范式下的視頻生成模型對訓練數據有較高的要求,需要將訓練數據處理為具有標準大小、裁剪尺寸的視頻。
Sora的技術報告顯示,為了構建Sora,OpenAI創新性地采用了文生圖模型DALL-E 3的相關技術:將Diffusion模型(可以將隨機像素大致轉換為圖像)與Transformer神經網絡(支持處理長數據序列)相結合。
這意味著,Sora可以像處理文字和圖像數據一樣,對視覺數據進行分塊式地理解分析,不用進行標準化的預先處理。
比如對應大語言模型中將文本分割為最小的處理單位Token,Sora也通過壓縮視頻到較低維度,將視覺數據分割為可分塊處理的補?。╬atch)。并且隨著訓練計算量的規模式(Scaling)提升,視頻生成質量會顯著提高。
基于基礎計算量生成的樣本效果。圖源:OpenAI
基于4倍計算量生成的樣本效果。圖源:OpenAI
基于16倍計算量生成的樣本效果。圖源:OpenAI
基于原始數據而非標準化處理數據的訓練,不僅可以讓Sora初步擁有理解真實或虛擬世界的能力,還能靈活生成時長不同、分辨率和尺寸各異的視頻(目前可生成的尺寸范圍是:寬屏1920x1080p~豎屏1080x1920p),以適應不同場景和設備的使用需求。
Sora生成不同尺寸下的同主題視頻。圖源:OpenAI
不過,仍有不少專家以審慎的態度看待這次技術突破。伊利諾伊大學厄巴納-尚佩恩分校信息科學教授Ted Underwood在華盛頓郵報的采訪中表示,OpenAI可能會挑選可以展示模型最佳表現的一些視頻。
再比如,普林斯頓大學計算機科學教授 Arvind Narayanan在X推文中指出,Sora生成的時尚女子在東京街頭行走的視頻中,女子的左右腿交換了位置,背景中的人物在被前進物體短暫遮擋后消失了。
Arvind Narayanan的推文,可仔細觀察原視頻14-16秒處的雙腿交換。
OpenAI官方也放出了一些“Sora翻車視頻”,展示了Sora在理解復雜場景的物理原理、因果關系、空間細節、時間推移上的弱點。比如,它搞反了人在跑步機上跑步的方向。
Sora生成的視頻截圖。提示詞:打印一個人跑步的場景,35 毫米電影膠片。
Sora殺死Runway們, 倫理安全引發大眾擔憂
2022年,TikTok觀看量Top 10的視頻平均時長為44.2秒,最長的一個視頻長達2分16秒;
廣告分析公司Integral Ad Science的統計數據顯示,移動網絡展示廣告和移動應用的廣告平均時長分別為15.6秒和20.2秒。
這意味著,一旦文生視頻模型突破了60s的時長瓶頸、畫質達到商用級別,對于用戶的生產和娛樂方式,都會產生巨大的影響?!恶R戲之王》導演Michael Gracey告訴華盛頓郵報:“電影制作者不再需要一個由 100 或 200 名藝術家組成的團隊,在三年內制作他們的動畫長片。這讓我很興奮?!?/p>
然而,他依然對AI工具可能會造成的版權爭議、失業問題而感到擔憂:“它(AI)剝奪了其他人的創造力、工作、想法和執行力,卻沒有給予他們應有的榮譽和經濟報酬時,那就不好了?!?/p>
由于Sora生成的視頻質量遠高于多數視頻生成模型,尤其現實風格讓人真假難辨,不少專家也表達了對視頻深度偽造(Deepfake)的擔憂。政治競選虛假信息識別組織True Media創始人、華盛頓大學教授Oren Etzioni在紐約時報的采訪中表示:“我非常害怕這種事情會影響一場勢均力敵的選舉?!?/p>
目前,OpenAI為Sora生成的視頻自動添加了水印標記,以表明由AI生成。OpenAI創始人兼CEO Sam Altman在X上表示,目前Sora正在展開紅隊測試(Red-Teaming,一種安全評估方法),并只對少數人開放測試。
Sam Altman的推文。
不過,即便尚未正式對公眾開放,Sora的能力已經引起了不少視頻模型創業者的恐慌。
“當一個質量更好、時長更長、應用場景更廣泛的視頻模型擺在面前,沒有人還想用‘Runway們’?!币幻鸄I創業者告訴36氪,“對模型層創業者來說,當務之急還是趕緊找場景、做應用?!?/p>