国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

Google發布Imagen 2,解決經典六指人問題,AI文生圖卷起來了

業界
TIME
2023-12-22 16:10
36氪
分享

  文|王怡寧

  編輯|鄧詠儀

  幾周前,Pika 1.0帶著炫酷的官方宣傳視頻強勢出道,將所有人的目光吸引到了文生視頻賽道。

  只需輸入一段文字就能得到好萊塢電影質感的視頻,Pika又一次豐富了人們對AI生成式內容的想象力,也把壓力給到了文生圖領域的“前輩”們。不過,就在上周,Google Deepmind在時隔一年半后,帶著Imagen 2強勢回歸。除了更逼真的圖像呈現效果,功能上也有多重升級,讓文生圖賽道的戰局又變得有趣了一些。

  珠玉在前,Imagen 2一經發布就面臨網友們的靈魂拷問:“你們的模型好在哪里呢?”

  △圖源:Twitter

理解力更強,告別AI六指人

  先上結論,升級版的Imagen 2確實有點東西!以下是幾個關鍵看點:

  1、使用自然語言生成高分辨率且更加逼真的圖像。

  不妨先看看下面這張圖,是不是一張再普通不過的照片?

  △圖源:Imagen 2

  但如果告訴你,這其實是由Imagen 2生成的呢?

Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.

  僅僅依靠以上這串提示詞,你就能用Imagen 2得到一張以假亂真的圖片,這已經非常直觀地展示了Imagen 2強調的高質量、高分辨率和逼真的特點。

  和其他主流文生圖工具對比,Imagen 2的表現也算相當出色。

  △圖源:Twitter

  尤其值得一提的是,Imagen 2還解決了過去AI生成圖片處理不好人的手部和臉部細節的問題,這也意味著,用戶終于可以不用擔心看到離譜的“三手六指”人了。

  △圖源:Imagen 2

  這次,Imagen 2甚至還更進一步,開始考慮用戶的審美偏好!

  DeepMind為Imagen 2訓練了一個特殊的“圖像美學模型”,以人對光線、取景、曝光、清晰度等特質的偏好為基準,為每張圖片打分。也就是說,Imagen 2現在更懂人類的審美了。

  比如,用“花”作為提示詞,基于人類的審美從左到右分數逐步提高。

  △圖源:Imagen 2

  以同樣一段出自《白鯨》的文字為例,Midjourney和Meta AI生成的內容不僅不太貼合人類的審美,還有些怪異。

  △圖源:Twitter

Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure)

  Imagen 2和DALL·E 3表現更勝一籌,本質還是它們背靠的Google和OpenAI技術優勢顯著。拿Imagen 2來說,Google為這個新版本工具提供了內部最先進的文本到圖像擴散技術(text-to-image diffusion technology),這種技術讓Imagen 2不僅可以更準確地理解用戶提示詞的含義,也讓圖片質量又提升了一個層次。

  此外,Imagen 2給了用戶更多的自由空間去編輯他們的圖像,比如讓人眼前一亮修補(inpainting)功能,允許用戶在原始圖片中直接生成新的內容。

  △圖源:Imagen 2

  2、生成各類商標,還允許添加數字水印

  Imagen 2可以生成各類用于商業領域的Logo,讓企業和品牌輕松實現商標自由。

  △圖源:Imagen 2

  當然,更重要的是安全問題,比如,加個水印。添加水印的功能并不特別,難點在于如何有水平地加水印。在這一點上,Imagen 2為用戶提供了一個完美的解決方案。

  Imagen2在設計中集成了SynthID,這是一種用于加水印和識別 AI 生成內容的尖端工具包,這使得通過Imagen 2添加的數字水印肉眼無法察覺,且不會影響圖像質量。

  △圖源:Google DeepMind

  這種數字水印還非常“牢固”。不論是加濾鏡、壓縮體積、更改亮度,還是刪除部分內容,水印都仍然能被檢測到。

  △圖源:Google DeepMind

  可以說,這項功能直擊企業客戶的痛點,對他們來說相當有價值。Google在他們的官網展示了客戶之一,一家中國的知名設計和素材平臺,對產品的評價,稱Imagen已經幫助他們生成了數以百萬計的圖像,還盡可能減少了版權方面的摩擦。

  3、支持多語言文本渲染和視覺問答

  Imagen 2還提供文本渲染支持,又解決了以往文生圖的一個技術難點。例如,如果提示模型生成具有特定單詞或短語的對象圖片,那么確保正確的短語是輸出圖像的一部分就很困難。

  Image 2就解決了這個問題,對于企業想要在圖片中露出正確的品牌信息尤其有幫助。

  △圖源:Imagen 2

  除了英語,Imagen2預覽版還支持中文、印地語、日語、韓語、葡萄牙語、英語和西班牙語6種語言,多語言版本預計將在2024年年初發布。

One More Thing

  從Imagen 2的實測表現來看,Google在Imagen 1發布后的一年半里確實在取得了不小的研究成果,大有在文生圖領域彎道超車的勢頭在。

  當然,不同于被大眾稱作“競品”的DALL·E 3和Midjourney,Imagen 2只是家大業大的Google業務中的一小部分。在過去的兩周內,Google還發布了他們更重要的大模型產品Gemini(顯然也是最核心的業務之一),和針對醫療行業進行微調的模型MedLM。

  就在上周末,Google又推出了新的視覺語言模型PixelLLM,逐詞定位功能讓人眼前一亮,不僅能夠對圖片內容作出準確描述,還能精確指出圖中每個詞匯所對應的位置,可以說是在2023年的末尾又狠狠地“卷”了一把同行們。

  △圖源:Twitter

  從上面的一系列動作來看,Google更想做一個在AI領域“全面發展”的優等生。Imagen 2的發布對于Google接下來AI業務的長遠發展有著不小的意義,它擁有的強大的文本理解能力、制作高分辨率圖片等能力有望在未來為Google更多的業務提供底層的技術支持。

  美中不足的是,Imagen 2目前主要通過Vertex AI開放給Google Cloud的企業用戶,而非直接開放給個人用戶,此舉也被一部分網友批評開放范圍太小。

  就在Imagen 2發布的同一天,文生圖賽道的另一家明星公司Midjourney也正式上線了alpha版本,通過設置右側滑塊一鍵調整圖片比例等功能提升了用戶友好度,不過這些小規模更新似乎沒有滿足用戶的期待。

  不知道是否受了Imagen 2發布消息的影響,Midjourney在12月17日宣布將在下周更新V6版本,距離上一個版本已經時隔半年。從目前流出的一些圖片來看,V6處理復雜信息的能力有明顯提高,下周正式上線的版本值得期待,恐怕也免不了被拿來和Imagen 2一較高下。

  比起文生視頻工具驚艷但還不太穩定的發揮,Imagen 2的更新更像是Google在基礎的視覺語言處理方面邁出的扎實一步,讓AI學習人類審美來制圖,是一種頗有意義的探索和進步。

  歡迎交流

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時通知我們。

相關熱點

  據國內媒體最新報道稱,國家新聞出版署今日公布新一批進口游戲版號,40款新游獲得批準?! 【唧w來說,完美世界《一拳超人:世界》、吉比特旗下雷霆網絡《燭火地牢2》、中...
手游
  北京降雪結束之后,一股強冷空氣上線“接管”北京天氣,帶來大風、寒潮和持續低溫。零下十幾度的氣溫打得人措手不及。這波大降溫讓很多人都關心起了如何“吃出溫暖”...
互聯網

相關推薦

1
3