国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

深扒Sora:一場投資過億的視頻暴力美學(xué) | Future

業(yè)界
TIME
2024-03-03 10:10
36氪
分享

當(dāng)瓦特蒸汽機(jī)的齒輪轉(zhuǎn)動了第一圈;當(dāng)喬布斯從牛皮紙袋掏出Macbook;當(dāng)ChatGPT用流暢優(yōu)美的語言回答第一個問題。科技,曾經(jīng)、正在、也將改變未來。 【Future】是36氪科技報道團(tuán)隊主理的一檔專欄,我們將圍繞科技產(chǎn)業(yè)的前沿突破,記錄那些實驗室里令人振奮的新技術(shù),是如何穿越PMF(Product Market Fit 產(chǎn)品與市場結(jié)合)的驚險周期,進(jìn)而影響更廣闊的商業(yè)社會。 在這里,看見【Future】。

  作者|武靜靜

  編輯|蘇建勛

  兩周前,Sora現(xiàn)世,在AI領(lǐng)域又投下一顆重磅炸彈。演示視頻中可以看到,Sora已經(jīng)能生成含有多個角色進(jìn)行特定運動的復(fù)雜場景。

  Sora生成的視頻,圖源:OpenAI

  OpenAI在技術(shù)報告中稱:“Sora這類視頻生成模型是世界的模擬器。Sora是能夠理解和模擬現(xiàn)實世界模型的基礎(chǔ),我們相信這種能力將成為實現(xiàn)AGI的重要里程碑?!?/p>

  也有人并不認(rèn)同這種描述,Meta首席科學(xué)家Yann LeCun(楊立昆)認(rèn)為:“僅根據(jù)文字提示生成逼真的視頻,并不代表模型理解了物理世界?!?/p>

  Sora為何會形成如此驚艷的效果?我們通過研究技術(shù)報告、訪談多位行業(yè)人士后發(fā)現(xiàn),Sora背后雖然并非采用了多石破天驚的技術(shù)路線,但在視頻模型技術(shù)路線尚未收斂的當(dāng)前情況下,Sora達(dá)成的出色效果明顯降低了其他市場參與者在技術(shù)路線上的試錯成本,也在視頻生成的設(shè)計邏輯等產(chǎn)品思路上提供了可借鑒的理念。

  Sora會給行業(yè)帶來怎樣的劇變?接下來視頻模型行業(yè)又將如何把握這次的挑戰(zhàn)和機(jī)會?

  “Sora給這個方向上的同行們指明了一條路,即Transformer也可以在視頻模態(tài)下表現(xiàn)出很好的涌現(xiàn)能力。”線性資本投資副總裁白則人向36氪表示。

  他認(rèn)為,這會推動其他視頻大模型公司加速研發(fā)節(jié)奏,迎來新的機(jī)會,開源技術(shù)在接下來也會取得進(jìn)一步發(fā)展。

  對于更多人而言,Sora解鎖了對多模態(tài)視頻大模型的新想象。OpenAI再次憑一己之力把多模態(tài)視頻大模型推向了新的高度。在此之前,視頻領(lǐng)域,受制于技術(shù)難度和數(shù)據(jù)集等難題,一直未出現(xiàn)類似ChatGPT、Midjourney這樣的現(xiàn)象級產(chǎn)品。

1. Sora驚艷效果帶來的啟示:圖片+視頻混合訓(xùn)練

  從產(chǎn)品細(xì)節(jié)來看,與其他同類模型相比,Sora生成的視頻在時長、內(nèi)容一致性、連貫性和分辨率方面表現(xiàn)出明顯的優(yōu)勢。

  Sora生成的視頻,圖源:OpenAI

  從目前OpenAI發(fā)布的demo效果中可以看到,在生成的一分鐘視頻內(nèi),可以明顯感覺到視頻中的場景伴隨鏡頭運動進(jìn)行變化,并且保持內(nèi)容一致性。

  這是此前我們在使用Pika和Runway等視頻模型產(chǎn)品時很難體驗到的。比如,在《實測Pika1.0,砸了3.9億元,真實效果不及宣傳|產(chǎn)品觀察》中,我們發(fā)現(xiàn)Pika把靜態(tài)的圖片轉(zhuǎn)化成一段動態(tài)視頻之后,視頻中的人臉出現(xiàn)變形,且比照片顯示更虛一點。

  以這張模特圖片為例,上傳照片給Pika,圖片來自IC photo

  Pika基于上述圖片生成的動態(tài)視頻

  視頻生成能力相比文生圖,技術(shù)難度更復(fù)雜。AI生成視頻工具不僅需要掌握基礎(chǔ)的自然語言理解能力,還需要在畫面流暢度、風(fēng)格準(zhǔn)確性、穩(wěn)定性、一致性、動作連貫性等方面有較好的表現(xiàn)。

  Sora做到了其他產(chǎn)品都沒實現(xiàn)的一分鐘時長。而從技術(shù)實現(xiàn)來看,要想讓一個模型生成的視頻從4秒延長到10秒,背后涉及的技術(shù)問題就極為復(fù)雜。

  其中,有一個重要的考量維度是視頻生成邏輯問題:是image-to-video(圖像到視頻)路線,即先生成圖像,再由圖像生成視頻;還是video-native(視頻原聲)的設(shè)計概念,即把圖像和視頻進(jìn)行統(tǒng)一編碼,混合訓(xùn)練。

  “如果選擇image-to-video(圖像到視頻)路線,用一幀一幀的圖像去組成視頻,比如先生成一個由32幀圖像構(gòu)成的一個4s視頻,把這個視頻最后一幀畫面拿出來,作為下一個4s視頻的起點。這種方式理論上可以,但是過程中誤差會累計,且視頻生成涉及到內(nèi)容連續(xù)性問題,讓問題變得更復(fù)雜。所以,最終第10s的畫面會和初始視頻相差甚遠(yuǎn)?!敝窍笪磥鞢TO姚霆表示。

  Pika曾在一次采訪中提到這種路線面臨的挑戰(zhàn),“當(dāng)視頻很長時,確保每一幀都協(xié)調(diào)一致是個相當(dāng)復(fù)雜的問題。在訓(xùn)練時,處理視頻數(shù)據(jù)時要處理多張圖片,如何將100幀圖片傳輸?shù)紾PU上就是其中一個挑戰(zhàn)。而在推理時,由于涉及到生成大量幀,推理速度相對于單張圖片會更慢,計算成本也會增加?!?/p>

  Sora采用了混合訓(xùn)練的方式。在技術(shù)報告中,OpenAI提到,采用將圖片和視頻混合訓(xùn)練的方式,用patch(視覺補(bǔ)丁)作為視頻數(shù)據(jù),來訓(xùn)練視頻模型。

  姚霆認(rèn)為,OpenAI采用的這種video-native的設(shè)計理念,把圖像作為單幀視頻很自然地加入模型的訓(xùn)練,所以,Sora模型可以無縫切換為圖像生成模型,這會促使技術(shù)人員去重新思考視頻生成的設(shè)計邏輯。

  他提到:“這也給了我們啟發(fā),從Sora效果中,我們看到,圖像和視頻的混合訓(xùn)練很重要,如果缺失了這一點,很難達(dá)到這樣的高度。當(dāng)然,這也證明OpenAI把技術(shù)架構(gòu)之間耦合得很好?!?/p>

  Sora生成的視頻,圖源:OpenAI

  此外,對于Sora生成的視頻中展示出的流暢運鏡畫面,也有人猜測,結(jié)合團(tuán)隊有專職數(shù)字內(nèi)容的工作者來看,Sora在訓(xùn)練數(shù)據(jù)里包含了3D渲染數(shù)據(jù),讓它相比其他產(chǎn)品更擅長生成運鏡畫面,模擬出3D視覺效果。

  這些都是Sora驚艷的效果背后的一些產(chǎn)品設(shè)計細(xì)節(jié)。

  驚艷之余,另一個值得思考的問題是,雖然OpenAI把Sora稱為世界的模擬器,但從目前的效果也可以看到其中的局限性。

  “Sora未必真正的理解這個世界?!盪CL計算機(jī)系教授汪軍告訴36氪。

  他舉了一個例子,在現(xiàn)實的物理環(huán)境中,當(dāng)一個玻璃瓶打碎時,會和其他物體的碰撞,這要符合物理規(guī)律現(xiàn)象。“如果Sora通過預(yù)測下一個token來生成視頻,如何建立一個真正符合邏輯和物理規(guī)律的世界模型就會成為一個挑戰(zhàn),就像語言模型一樣,有些模型可能只關(guān)注于生成人類可以理解的語言,但這并不意味著它們真正理解了物理邏輯。”

2.Sora的成功,是OpenAI暴力美學(xué)的再次勝利

  OpenAI官網(wǎng)信息可以看到,Sora團(tuán)隊成立時間還未超過1年,核心團(tuán)隊共有15人,成員中甚至還有00后。

  Sora為何能在這么短的時間內(nèi)做到如此好的效果到現(xiàn)在都還是一團(tuán)迷霧。這次Sora技術(shù)博客中,OpenAI也提到,不會分享技術(shù)細(xì)節(jié),只提供了模型設(shè)計理念和demo視頻,依照OpenAI越來越不Open的路子來看,未來我們也無法得知更多技術(shù)有效信息。

  很多人都在探討Sora的技術(shù)路線。目前,主流的視頻模型框架有兩種:Diffusion model(擴(kuò)散模型)和Auto-regressive model(自回歸模型),后者就是此前被很多人熟知的GPT模型。一直以來,視頻生成模型的主流模型框架一直都未像語言模型一樣收斂成一個確定性路線。

  圖片由智象未來CTO姚霆制作

  智象未來CTO姚霆告訴36氪,兩大路線的區(qū)別在于:“Diffusion model(擴(kuò)散模型)基于擴(kuò)散模型加噪去噪的機(jī)制可以更好地結(jié)構(gòu)化,并生成較高質(zhì)量畫質(zhì)的視頻內(nèi)容,而 Auto-regressive model(自回歸模型)更適合長上下文語境理解,天然適配多模態(tài)對話的生成方式?!?/p>

  在具體的技術(shù)實現(xiàn)中,兩大路線之下也會繼續(xù)衍生出不同的細(xì)分架構(gòu)。比如,Diffusion模型路線之下,Gen-2、Pika就采用了U-net(卷積神經(jīng)網(wǎng)絡(luò))架構(gòu),也有公司把U-net架構(gòu)換成Transformer架構(gòu),采用DiT(Diffusion Transformer)架構(gòu)。

  Sora被認(rèn)為就是采用了DiT的架構(gòu)。這是目前市場的廣泛猜測,主要依據(jù)是2023年Sora研發(fā)負(fù)責(zé)人之一 Bill Peebles與紐約大學(xué)助理教授謝賽寧曾發(fā)表的DiT(擴(kuò)散 Transformer)論文《Scalable Diffusion Models with Transformers》。

  據(jù)36氪了解,國內(nèi)的多模態(tài)視頻模型創(chuàng)業(yè)公司愛詩科技在創(chuàng)立之初就選擇了這條路線,而另一家創(chuàng)業(yè)公司HiDream智象未來也采用了DiT架構(gòu)。 姚霆稱:“其實我們在圖像生成模型上已經(jīng)自研驗證了一套成熟的DiT架構(gòu),相較于U-Net,DiT架構(gòu)靈活度更高,且能增強(qiáng)圖像、視頻的生成質(zhì)量。”

  所以單從技術(shù)路線來看,Sora選擇的技術(shù)架構(gòu)并不是多稀缺的選擇,只是早前各家視頻模型公司考量不同,選擇不同。

  “技術(shù)路線Sora展示的信息中并沒有很特別的東西。OpenAI肯定有自己獨特的訓(xùn)練方法?!蓖糗姼嬖V36氪。

  他提到,“通過大規(guī)模的訓(xùn)練,使得能夠利用海量的數(shù)據(jù)和計算資源,將工程方面做得非常出色,在我看來,算力和數(shù)據(jù)尚未到上限,還有進(jìn)一步發(fā)展的空間,可以進(jìn)一步挖掘數(shù)據(jù)潛力,在文本、圖像甚至視頻上進(jìn)行更深入地處理,將模型能力提升至新的高度。”

  所以,雖然沒有進(jìn)行底層技術(shù)路線創(chuàng)新,但OpenAI的強(qiáng)大之處在于,在這個路線上不斷踐行大算力、大數(shù)據(jù)的暴力美學(xué)——通過大力出奇跡的方式,依靠細(xì)致的工程化創(chuàng)新,推進(jìn)模型涌現(xiàn)能力的持續(xù)優(yōu)化。

  OpenAI在報告中提到:我們的結(jié)果表明,擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的途徑——“在相同的樣本下,隨著訓(xùn)練計算規(guī)模的增加,視頻質(zhì)量顯著提高,也會表現(xiàn)出許多有趣的新興功能,使Sora能夠模擬現(xiàn)實世界中人、動物和環(huán)境的某些方面?!?/p>

  此外,OpenAI也在論文中提到Sora也結(jié)合了GPT等產(chǎn)品能力。

  姚霆認(rèn)為,Sora強(qiáng)大建立在過去對DALL-E和GPT模型的研究之上?!癝ora是OpenAI 集成自己語言(GPT)、視覺理解(GPT4-V)和圖像生成(DALL-E)多種能力的一個出口,它使用DALL·E 3的重述提示詞技術(shù),為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)注,因此能夠更忠實地遵循用戶的文本指令?!?/p>

  目前,關(guān)于Sora參數(shù)量、訓(xùn)練數(shù)據(jù)的各種猜測甚囂塵上,出入也很大,有人猜Sora的模型參數(shù)規(guī)模是百億級別,訓(xùn)練成本是千萬美元級別,也有人覺得參數(shù)規(guī)模可能只有3B,但數(shù)據(jù)標(biāo)注成本不低,更有人認(rèn)為Sora的推理算力需求是GPT-4的1000倍以上。

  出門問問創(chuàng)始人李志飛稱,Sora用的訓(xùn)練數(shù)據(jù)可能是數(shù)百萬小時:“一般視頻的分辨率超過128*128,最終的Tokens量應(yīng)該至少是十萬億級別。如果Sora用了500萬小時視頻數(shù)據(jù)訓(xùn)練,那它使用的數(shù)據(jù)量大約相當(dāng)于Youtube上9天的數(shù)據(jù)產(chǎn)出量?!?/p>

  參數(shù)和數(shù)據(jù)量只是模型的其中一個方面,相比文本模型而言,視頻模型的數(shù)據(jù)復(fù)雜度更高,維度更多,優(yōu)質(zhì)數(shù)據(jù)來源更少,數(shù)據(jù)標(biāo)注難題更大,這些都是視頻模型公司在具體模型訓(xùn)練中面臨的工程化難題。

  此刻,對于其他視頻大模型公司而言,Sora驚艷的能力一方面驗證了DiT架構(gòu),減少了在技術(shù)架構(gòu)選擇上的試錯成本,能更快往前發(fā)展,另一方面,他們也需要面對更有挑戰(zhàn)的現(xiàn)實難題——在沒有OpenAI那樣強(qiáng)大的人才和算力儲備下,如何加強(qiáng)算法、數(shù)據(jù)等各個環(huán)節(jié)的工程化能力來追趕Sora。

3. 國內(nèi)視頻模型公司如何把握機(jī)會?

  Sora發(fā)布之后,有人悲觀,認(rèn)為:“Sora出現(xiàn),其他視頻公司都歇菜了”“國內(nèi)外差距被進(jìn)一步拉大”;也有人在剖析了更多細(xì)節(jié)之后認(rèn)為視頻模型的機(jī)會在被Sora激發(fā)之后,會迎來全新的發(fā)展空間。

  一方面,Sora的技術(shù)路線有借鑒意義,能夠讓其他公司避免路線搖擺,加速進(jìn)行產(chǎn)品,另一方面Sora帶動市場更受關(guān)注之后,會吸引更多的人才、算力、數(shù)據(jù)、資金,迎來新的創(chuàng)業(yè)機(jī)會。

  從Sora目前的進(jìn)展可以看出,尚未實現(xiàn)實時更新,且等待視頻生成的時間也比較漫長。這意味著,Sora尚未經(jīng)受ChatGPT這樣大規(guī)模用戶的運行考驗,其模型的計算資源和優(yōu)化程度尚未達(dá)到理想狀態(tài),還需要時間進(jìn)行繼續(xù)迭代。這給其他公司留下了時間和空間。

  據(jù)Reddit社區(qū)上的網(wǎng)友爆料,OpenAI在展示Sora功能時,主要使用了預(yù)先選擇的示例,并未允許公眾通過自定義提示詞來生成視頻,且生成一個1分鐘的視頻,Sora需要超過1個小時的渲染時間。

  愛詩科技的創(chuàng)始人王長虎稱,在他看來,目前Sora的技術(shù)發(fā)展相當(dāng)于在GPT2和GPT3之間,還沒到GPT4的水平,留給市場的空間很大。

  線性資本投資副總裁白則人告訴36氪:“模型的發(fā)展會加速催生更繁榮的上層應(yīng)用,帶來更多的應(yīng)用創(chuàng)新機(jī)會,這其中包括視頻模型方向,也包括結(jié)合多模態(tài)的應(yīng)用場景。但如何做出差異和建立長期護(hù)城河,是產(chǎn)品層創(chuàng)業(yè)公司一直面臨的挑戰(zhàn),創(chuàng)業(yè)團(tuán)隊更需要關(guān)注模型之外的壁壘建立,更回歸產(chǎn)品體驗、應(yīng)用場景和商業(yè)本質(zhì)。”

  市場進(jìn)展方面,國內(nèi)很多企業(yè)也早有布局。首先,大廠在視頻領(lǐng)域的動作不斷,基本上在推進(jìn)語言模型業(yè)務(wù)的同時也布局了視頻模型業(yè)務(wù):

  • 字節(jié)旗下剪映最近動作頻頻,目前,剪映已經(jīng)在邀請一些博主內(nèi)測旗下AI創(chuàng)作平臺Dreamina的視頻生成功能。
  • 阿里通義實驗室目前開發(fā)了開源視頻生成模型和代碼系列VGen。去年年底,阿里發(fā)布了最新AI應(yīng)用:Animate Anyone,可以根據(jù)一張人物照片,生成人體動畫視頻。
  • 百度在年初推出了一款視頻生成模型UniVG,能夠處理各種文本和圖像的組合輸入。
  • 騰訊在2023年12月與北大和香港科技大學(xué)聯(lián)合發(fā)布了視頻生成模型AnimateZero,并在今年發(fā)布了一個可以提升視頻質(zhì)量的視頻處理工具VideoCrafter2。

  相比算力和人才儲備的大廠,創(chuàng)業(yè)公司面臨的挑戰(zhàn)更大,但也并非沒有機(jī)會。據(jù)36氪了解,目前智象未來HiDream.AI 、愛詩科技、HeyGen、生數(shù)科技、右腦科技等創(chuàng)業(yè)公司,都已經(jīng)預(yù)先布局視頻大模型的業(yè)務(wù)。不同于上一波語言模型的國內(nèi)國外各自地盤發(fā)展的情況,在視頻模型領(lǐng)域,像愛詩科技等公司在早期就瞄準(zhǔn)了海外市場,相當(dāng)于與Sora在一個市場展開競爭。

  有不少行業(yè)大佬已經(jīng)入局。愛詩科技的創(chuàng)始人王長虎曾任字節(jié)跳動視覺技術(shù)負(fù)責(zé)人,主導(dǎo)了抖音和TikTok等產(chǎn)品,以及字節(jié)跳動視覺大模型從0到1的建設(shè);智象未來HiDream.AI創(chuàng)始人梅濤曾是京東集團(tuán)副總裁和微軟研究院資深研究員;生數(shù)科技則由清華人工智能研究院副院長朱軍教授帶領(lǐng),核心成員來自清華大學(xué)人工智能研究院。

  所以綜合目前國內(nèi)視頻模型公司進(jìn)展來看,接下來,大廠和創(chuàng)業(yè)公司都會陸續(xù)加大投入,行業(yè)的競爭會進(jìn)一步加劇。而大廠的優(yōu)勢在于,在人才、資金、算力上有原始積累,并且有數(shù)據(jù)和場景,而創(chuàng)業(yè)公司則可以利用自身快速敏捷的作戰(zhàn)模式,加速模型和產(chǎn)品迭代,把握產(chǎn)品層的創(chuàng)新機(jī)會。

  此外,在商業(yè)化路徑上,由于Sora并未像ChatGPT一樣開放公測,所以現(xiàn)在也無從看到清晰的商業(yè)模式,但從OpenAI釋放的信號來看,可能依舊是以通用模型為核心。

  但對于中國創(chuàng)業(yè)公司而言,在算力成本、數(shù)據(jù)訓(xùn)練等多重壓力下,在商業(yè)化過程中也會較早面臨路線選擇。

  未來,視頻模型創(chuàng)業(yè)公司在不斷發(fā)展之后也將出現(xiàn)不同的分野:一條是不斷增強(qiáng)基礎(chǔ)模型能力,打造C端產(chǎn)品路線,比如愛詩科技就選擇了這條路,根據(jù)海外流量檢測網(wǎng)站similarweb.com,目前愛詩海外產(chǎn)品PixVerse月訪問量增長迅猛,已經(jīng)超過百萬;另一條是瞄準(zhǔn)特定的場景進(jìn)行訓(xùn)練,打造專門的視頻模型,早日跑通某個B端場景的商業(yè)化閉環(huán)。

  姚霆認(rèn)為,視頻生成賽道,對于創(chuàng)業(yè)公司而言,需要在早期就思考產(chǎn)品如何構(gòu)建,從中尋找差異化的機(jī)會?!澳壳?,視頻生產(chǎn)還處于單鏡頭階段,未來,如果要生產(chǎn)一個短視頻或者短劇,視頻生產(chǎn)流程需要考慮多鏡頭、分鏡、故事邏輯等各類問題,這些產(chǎn)品問題都要前置考慮?!?/p>

  技術(shù)、產(chǎn)品、商業(yè)化,每一處都內(nèi)含成千上萬個待解決的細(xì)節(jié)問題,2024年接下來的時間,對每一家視頻大模型而言,都是一場硬仗。

  歡迎交流~

THE END
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;刊載之目的為傳播更多信息,如內(nèi)容不適請及時通知我們。

相關(guān)熱點

  據(jù)中國載人航天工程辦公室29日消息,2024年,中國載人航天工程將統(tǒng)籌推進(jìn)空間站應(yīng)用與發(fā)展和載人月球探測兩大任務(wù),向著建設(shè)航天強(qiáng)國的奮斗目標(biāo)邁出堅實步伐。目前,中國...
業(yè)界
  在1月份油價共出現(xiàn)了“2次200元/噸的大漲,1次50元/噸的下跌”,導(dǎo)致油價累計大漲了350元/噸。根據(jù)最新油價統(tǒng)計的數(shù)據(jù),預(yù)計3月4日晚油價又要漲超125元/噸,這讓今年油價...
汽車

相關(guān)推薦

1
3