Google發布Imagen 2，解決經典六指人問題，AI文生圖卷起來了

業界

TIME

2023-12-22 16:10

36氪

　　文｜王怡寧

　　編輯｜鄧詠儀

　　幾周前，Pika 1.0帶著炫酷的官方宣傳視頻強勢出道，將所有人的目光吸引到了文生視頻賽道。

　　只需輸入一段文字就能得到好萊塢電影質感的視頻，Pika又一次豐富了人們對AI生成式內容的想象力，也把壓力給到了文生圖領域的“前輩”們。不過，就在上周，Google Deepmind在時隔一年半后，帶著Imagen 2強勢回歸。除了更逼真的圖像呈現效果，功能上也有多重升級，讓文生圖賽道的戰局又變得有趣了一些。

　　珠玉在前，Imagen 2一經發布就面臨網友們的靈魂拷問：“你們的模型好在哪里呢？”

　　△圖源：Twitter

理解力更強，告別AI六指人

　　先上結論，升級版的Imagen 2確實有點東西！以下是幾個關鍵看點：

　　1、使用自然語言生成高分辨率且更加逼真的圖像。

　　不妨先看看下面這張圖，是不是一張再普通不過的照片？

　　△圖源：Imagen 2

　　但如果告訴你，這其實是由Imagen 2生成的呢？

Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.

　　僅僅依靠以上這串提示詞，你就能用Imagen 2得到一張以假亂真的圖片，這已經非常直觀地展示了Imagen 2強調的高質量、高分辨率和逼真的特點。

　　和其他主流文生圖工具對比，Imagen 2的表現也算相當出色。

　　△圖源：Twitter

　　尤其值得一提的是，Imagen 2還解決了過去AI生成圖片處理不好人的手部和臉部細節的問題，這也意味著，用戶終于可以不用擔心看到離譜的“三手六指”人了。

　　△圖源：Imagen 2

　　這次，Imagen 2甚至還更進一步，開始考慮用戶的審美偏好！

　　DeepMind為Imagen 2訓練了一個特殊的“圖像美學模型”，以人對光線、取景、曝光、清晰度等特質的偏好為基準，為每張圖片打分。也就是說，Imagen 2現在更懂人類的審美了。

　　比如，用“花”作為提示詞，基于人類的審美從左到右分數逐步提高。

　　△圖源：Imagen 2

　　以同樣一段出自《白鯨》的文字為例，Midjourney和Meta AI生成的內容不僅不太貼合人類的審美，還有些怪異。

　　△圖源：Twitter

Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure）

　　Imagen 2和DALL·E 3表現更勝一籌，本質還是它們背靠的Google和OpenAI技術優勢顯著。拿Imagen 2來說，Google為這個新版本工具提供了內部最先進的文本到圖像擴散技術（text-to-image diffusion technology），這種技術讓Imagen 2不僅可以更準確地理解用戶提示詞的含義，也讓圖片質量又提升了一個層次。

　　此外，Imagen 2給了用戶更多的自由空間去編輯他們的圖像，比如讓人眼前一亮修補（inpainting）功能，允許用戶在原始圖片中直接生成新的內容。

　　△圖源：Imagen 2

　　2、生成各類商標，還允許添加數字水印

　　Imagen 2可以生成各類用于商業領域的Logo，讓企業和品牌輕松實現商標自由。

　　△圖源：Imagen 2

　　當然，更重要的是安全問題，比如，加個水印。添加水印的功能并不特別，難點在于如何有水平地加水印。在這一點上，Imagen 2為用戶提供了一個完美的解決方案。

　　Imagen2在設計中集成了SynthID，這是一種用于加水印和識別 AI 生成內容的尖端工具包，這使得通過Imagen 2添加的數字水印肉眼無法察覺，且不會影響圖像質量。

　　△圖源：Google DeepMind

　　這種數字水印還非常“牢固”。不論是加濾鏡、壓縮體積、更改亮度，還是刪除部分內容，水印都仍然能被檢測到。

　　△圖源：Google DeepMind

　　可以說，這項功能直擊企業客戶的痛點，對他們來說相當有價值。Google在他們的官網展示了客戶之一，一家中國的知名設計和素材平臺，對產品的評價，稱Imagen已經幫助他們生成了數以百萬計的圖像，還盡可能減少了版權方面的摩擦。

　　3、支持多語言文本渲染和視覺問答

　　Imagen 2還提供文本渲染支持，又解決了以往文生圖的一個技術難點。例如，如果提示模型生成具有特定單詞或短語的對象圖片，那么確保正確的短語是輸出圖像的一部分就很困難。

　　Image 2就解決了這個問題，對于企業想要在圖片中露出正確的品牌信息尤其有幫助。

　　△圖源：Imagen 2

　　除了英語，Imagen2預覽版還支持中文、印地語、日語、韓語、葡萄牙語、英語和西班牙語6種語言，多語言版本預計將在2024年年初發布。

One More Thing

　　從Imagen 2的實測表現來看，Google在Imagen 1發布后的一年半里確實在取得了不小的研究成果，大有在文生圖領域彎道超車的勢頭在。

　　當然，不同于被大眾稱作“競品”的DALL·E 3和Midjourney，Imagen 2只是家大業大的Google業務中的一小部分。在過去的兩周內，Google還發布了他們更重要的大模型產品Gemini（顯然也是最核心的業務之一），和針對醫療行業進行微調的模型MedLM。

　　就在上周末，Google又推出了新的視覺語言模型PixelLLM，逐詞定位功能讓人眼前一亮，不僅能夠對圖片內容作出準確描述，還能精確指出圖中每個詞匯所對應的位置，可以說是在2023年的末尾又狠狠地“卷”了一把同行們。

　　△圖源：Twitter

　　從上面的一系列動作來看，Google更想做一個在AI領域“全面發展”的優等生。Imagen 2的發布對于Google接下來AI業務的長遠發展有著不小的意義，它擁有的強大的文本理解能力、制作高分辨率圖片等能力有望在未來為Google更多的業務提供底層的技術支持。

　　美中不足的是，Imagen 2目前主要通過Vertex AI開放給Google Cloud的企業用戶，而非直接開放給個人用戶，此舉也被一部分網友批評開放范圍太小。

　　就在Imagen 2發布的同一天，文生圖賽道的另一家明星公司Midjourney也正式上線了alpha版本，通過設置右側滑塊一鍵調整圖片比例等功能提升了用戶友好度，不過這些小規模更新似乎沒有滿足用戶的期待。

　　不知道是否受了Imagen 2發布消息的影響，Midjourney在12月17日宣布將在下周更新V6版本，距離上一個版本已經時隔半年。從目前流出的一些圖片來看，V6處理復雜信息的能力有明顯提高，下周正式上線的版本值得期待，恐怕也免不了被拿來和Imagen 2一較高下。

　　比起文生視頻工具驚艷但還不太穩定的發揮，Imagen 2的更新更像是Google在基礎的視覺語言處理方面邁出的扎實一步，讓AI學習人類審美來制圖，是一種頗有意義的探索和進步。

　　歡迎交流

THE END

免責聲明：本文系轉載，版權歸原作者所有；刊載之目的為傳播更多信息，如內容不適請及時通知我們。

国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

Google發布Imagen 2，解決經典六指人問題，AI文生圖卷起來了

相關熱點

最新文章

相關推薦

東京奧運會中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙航天員劉伯明成功開啟天和核心艙節點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復消息，背后原因挺“傷人”

關注我們

国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

Google發布Imagen 2，解決經典六指人問題，AI文生圖卷起來了

相關熱點

最新文章

相關推薦

東京奧運會中國第13金由游泳健將張雨霏斬獲，一天斬獲兩枚金牌

兩名航天員成功出艙 航天員劉伯明成功開啟天和核心艙節點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復消息，背后原因挺“傷人”

關注我們

Google發布Imagen 2，解決經典六指人問題，AI文生圖卷起來了

兩名航天員成功出艙航天員劉伯明成功開啟天和核心艙節點艙出艙艙門

微信顯示“正在輸入”，其實不是在回復消息，背后原因挺“傷人”