OpenAI空降視頻生成模型：一口氣生成60s，風格畫質尺寸靈活定制 | 最前線

業界

TIME

2024-02-16 19:10

36氪

　　文 | 周鑫雨

　　編輯 | 蘇建勛

　　2023年4月，成立于紐約的Runway AI發布了一段用AI生成的視頻：模糊卡頓、物體扭曲，且僅4秒；

　　四個月后，Runway將文生視頻的視頻效果拉到了4K的超逼著高度，實現了鏡頭的連貫穩定。而視頻的最大長度也從4秒，提升到了18秒——這也是2023年文生視頻的“時長天花板”。

　　然而，就在北京時間2024年2月16日凌晨，“天花板”又被打破——OpenAI又出王炸，發布了可以生成60秒視頻的AI模型Sora。

　　OpenAI官宣Sora。

　　同樣在2月16日發布的谷歌最新多模態模型Gemini Pro 1.5，則被Sora迅速奪走了關注度。

　　網友為Gemini和Sora制作的梗圖。

　　根據OpenAI官方發布的推文和技術報告，Sora能力的革命性可以被提煉為：最長生成60s視頻、鏡頭的前后一致性、超逼真。

　　從官方發布的視頻demo而言，Sora只需要輸入包含“構成元素、環境、行為及發生順序、視頻風格”等關鍵因素的Prompt（提示詞），就能生成不同風格的高清、連貫，且具有豐富運鏡和轉場的60s級視頻。

　　比如生成包含人物和城市元素的視頻：

提示詞：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，涂著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

　　Sora生成視頻（原視頻為60s，文中截取20s，畫質受gif大小限制有所壓縮）。圖源：OpenAI

　　Sora也能生成動物和自然風光：

提示詞：幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近，它們長長的毛茸茸的皮毛在風中輕輕飄動，遠處覆蓋著積雪的樹木和雄偉的雪山，午后的陽光下有縷縷云彩，太陽高高地掛在空中距離產生溫暖的光芒，低相機視角令人驚嘆地捕捉到大型毛茸茸的哺乳動物，具有美麗的攝影和景深。

　　Sora生成視頻（畫質受gif大小限制有所壓縮）。圖源：OpenAI

　　Sora生成的視頻已經能夠達到逼真的效果。不過，用3D和動漫風格生成虛擬場景對Sora而言也不在話下：

提示詞：動畫場景的特寫是一個毛茸茸的小怪物跪在融化的紅蠟燭旁邊。藝術風格是 3D 和現實的，重點是燈光和紋理。這幅畫的氣氛是一種驚奇和好奇，怪物睜大眼睛、張開嘴巴凝視著火焰。它的姿勢和表情傳達出一種天真和俏皮的感覺，就好像它第一次探索周圍的世界一樣。暖色調和戲劇性燈光的使用進一步增強了圖像的舒適氛圍。

　　Sora生成視頻（畫質受gif大小限制有所壓縮）。圖源：OpenAI

突破時長和逼真的瓶頸， Sora摸著DALL-E過河

　　在半年前，在保證生成畫質的前提下時長僅僅是突破10秒，對于多數視頻模型而言都是難以企及的高度。

　　這是由于循環網絡、生成對抗網絡、Diffusion模型等主流視頻建模范式，通常只能學習某一小類的視覺數據、較短的視頻或者固定大小的視頻。

　　這意味著，此前主流范式下的視頻生成模型對訓練數據有較高的要求，需要將訓練數據處理為具有標準大小、裁剪尺寸的視頻。

　　Sora的技術報告顯示，為了構建Sora，OpenAI創新性地采用了文生圖模型DALL-E 3的相關技術：將Diffusion模型（可以將隨機像素大致轉換為圖像）與Transformer神經網絡（支持處理長數據序列）相結合。

　　這意味著，Sora可以像處理文字和圖像數據一樣，對視覺數據進行分塊式地理解分析，不用進行標準化的預先處理。

　　比如對應大語言模型中將文本分割為最小的處理單位Token，Sora也通過壓縮視頻到較低維度，將視覺數據分割為可分塊處理的補?。╬atch）。并且隨著訓練計算量的規模式（Scaling）提升，視頻生成質量會顯著提高。

　　基于基礎計算量生成的樣本效果。圖源：OpenAI

　　基于4倍計算量生成的樣本效果。圖源：OpenAI

　　基于16倍計算量生成的樣本效果。圖源：OpenAI

　　基于原始數據而非標準化處理數據的訓練，不僅可以讓Sora初步擁有理解真實或虛擬世界的能力，還能靈活生成時長不同、分辨率和尺寸各異的視頻（目前可生成的尺寸范圍是：寬屏1920x1080p~豎屏1080x1920p），以適應不同場景和設備的使用需求。

　　Sora生成不同尺寸下的同主題視頻。圖源：OpenAI

　　不過，仍有不少專家以審慎的態度看待這次技術突破。伊利諾伊大學厄巴納－尚佩恩分校信息科學教授Ted Underwood在華盛頓郵報的采訪中表示，OpenAI可能會挑選可以展示模型最佳表現的一些視頻。

　　再比如，普林斯頓大學計算機科學教授 Arvind Narayanan在X推文中指出，Sora生成的時尚女子在東京街頭行走的視頻中，女子的左右腿交換了位置，背景中的人物在被前進物體短暫遮擋后消失了。

　　Arvind Narayanan的推文，可仔細觀察原視頻14-16秒處的雙腿交換。

　　OpenAI官方也放出了一些“Sora翻車視頻”，展示了Sora在理解復雜場景的物理原理、因果關系、空間細節、時間推移上的弱點。比如，它搞反了人在跑步機上跑步的方向。

　　Sora生成的視頻截圖。提示詞：打印一個人跑步的場景，35 毫米電影膠片。

Sora殺死Runway們，倫理安全引發大眾擔憂

　　2022年，TikTok觀看量Top 10的視頻平均時長為44.2秒，最長的一個視頻長達2分16秒；

　　廣告分析公司Integral Ad Science的統計數據顯示，移動網絡展示廣告和移動應用的廣告平均時長分別為15.6秒和20.2秒。

　　這意味著，一旦文生視頻模型突破了60s的時長瓶頸、畫質達到商用級別，對于用戶的生產和娛樂方式，都會產生巨大的影響?！恶R戲之王》導演Michael Gracey告訴華盛頓郵報：“電影制作者不再需要一個由 100 或 200 名藝術家組成的團隊，在三年內制作他們的動畫長片。這讓我很興奮?！?/p>

　　然而，他依然對AI工具可能會造成的版權爭議、失業問題而感到擔憂：“它（AI）剝奪了其他人的創造力、工作、想法和執行力，卻沒有給予他們應有的榮譽和經濟報酬時，那就不好了?！?/p>

　　由于Sora生成的視頻質量遠高于多數視頻生成模型，尤其現實風格讓人真假難辨，不少專家也表達了對視頻深度偽造（Deepfake）的擔憂。政治競選虛假信息識別組織True Media創始人、華盛頓大學教授Oren Etzioni在紐約時報的采訪中表示：“我非常害怕這種事情會影響一場勢均力敵的選舉?！?/p>

　　目前，OpenAI為Sora生成的視頻自動添加了水印標記，以表明由AI生成。OpenAI創始人兼CEO Sam Altman在X上表示，目前Sora正在展開紅隊測試（Red-Teaming，一種安全評估方法），并只對少數人開放測試。

　　Sam Altman的推文。

　　不過，即便尚未正式對公眾開放，Sora的能力已經引起了不少視頻模型創業者的恐慌。

　　“當一個質量更好、時長更長、應用場景更廣泛的視頻模型擺在面前，沒有人還想用‘Runway們’?！币幻鸄I創業者告訴36氪，“對模型層創業者來說，當務之急還是趕緊找場景、做應用?！?/p>

THE END

免責聲明：本文系轉載，版權歸原作者所有；刊載之目的為傳播更多信息，如內容不適請及時通知我們。

国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

OpenAI空降視頻生成模型：一口氣生成60s，風格畫質尺寸靈活定制 | 最前線

相關熱點

最新文章

相關推薦

東京奧運會中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙航天員劉伯明成功開啟天和核心艙節點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復消息，背后原因挺“傷人”

關注我們

国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

OpenAI空降視頻生成模型：一口氣生成60s，風格畫質尺寸靈活定制 | 最前線

相關熱點

最新文章

相關推薦

東京奧運會中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙 航天員劉伯明成功開啟天和核心艙節點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復消息，背后原因挺“傷人”

關注我們

OpenAI空降視頻生成模型：一口氣生成60s，風格畫質尺寸靈活定制 | 最前線

東京奧運會中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙航天員劉伯明成功開啟天和核心艙節點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復消息，背后原因挺“傷人”