• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能學術 正文
    發私信給我在思考中
    發送

    0

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    本文作者: 我在思考中 2022-05-25 10:06
    導語:Google Brain推出的 Imagen,比前段時間OpeAI家的DALL·E 2更強!

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    作者|李梅、王玥

    編輯|陳彩嫻

    文本生成圖像模型界又出新手筆!

    這次的主角是Google Brain推出的 Imagen,再一次突破人類想象力,將文本生成圖像的逼真度和語言理解提高到了前所未有的新高度!比前段時間OpeAI家的DALL·E 2更強!

    話不多說,我們來欣賞這位AI畫師的杰作~

    A brain riding a rocketship heading towards the moon.(一顆大腦乘著火箭飛向月球。)

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    A dragon fruit wearing karate belt in the snow.(在雪地里戴著空手道腰帶的火龍果)

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    A  marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只帶著巨大耳機的考拉DJ的大理石雕像站在一個大理石轉盤前。)

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陳列莫奈畫作的美術館被水淹沒。機器人正在使用槳板在美術館里劃行。)

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    A giant cobra snake on a farm.The snake is made out of corn(農場里有一條巨大的玉米構成的眼鏡蛇。)

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奧運會400米蝶泳項目中游泳。)

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    以及更多......

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    給出同樣的文本提示,Imagen還可以生成不同類別的圖像。比如下面這些圖中,各組圖片在物品的顏色、空間位置、材質等范疇上都不太相同。

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



    1

    Imagen的工作原理
    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    論文地址:https://gweb-research-imagen.appspot.com/paper.pdf

    Imagen的可視化流程

    Imagen基于大型transformer語言模型在理解文本方面的能力和擴散模型在高保真圖像生成方面的能力。

    在用戶輸入文本要求后,如“一只戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”,Imagen先是使用一個大的凍結(frozen)T5-XXL 編碼器將這段輸入文本編碼為嵌入。然后條件擴散模型將文本嵌入映射到64×64的圖像中。

    Imagen進一步利用文本條件超分辨率擴散模型對64×64的圖像進行升采樣為256×256,再從256×256升到1024×1024。結果表明,帶噪聲調節增強的級聯擴散模型在逐步生成高保真圖像方面效果很好。

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    圖注:輸入“一只戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”后Imagen的動作

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    圖注:64 × 64生成圖像的超分辨率變化。對于生成的64 × 64圖像,將兩種超分辨率模型分別置于不同的提示下,產生不同的上采樣變化

    大型預訓練語言模型×級聯擴散模型

    Imagen使用在純文本語料中進行預訓練的通用大型語言模型(例如T5),它能夠非常有效地將文本合成圖像:在Imagen中增加語言模型的大小,而不是增加圖像擴散模型的大小,可以大大地提高樣本保真度和圖像-文本對齊。

    Imagen的研究突出體現在:

    • 大型預訓練凍結文本編碼器對于文本到圖像的任務來說非常有效;

    • 縮放預訓練的文本編碼器大小比縮放擴散模型大小更重要;

    • 引入一種新的閾值擴散采樣器,這種采樣器可以使用非常大的無分類器指導權重;

    • 引入一種新的高效U-Net架構,這種架構具有更高的計算效率、更高的內存效率和更快的收斂速度;

    • Imagen在COCO數據集上獲得了最先進的FID分數7.27,而沒有對COCO進行任何訓練,人類評分者發現,Imagen樣本在圖像-文本對齊方面與COCO數據本身不相上下。

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen



    2

    引入新基準DrawBench

    為了更深入地評估文本到圖像模型,Google Brain 引入了DrawBench,這是一個全面的、具有挑戰性的文本到圖像模型基準。通過DrawBench,他們比較了Imagen與VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,發現人類評分者在比較中更喜歡Imagen而不是其他模型,無論是在樣本質量上還是在圖像-文本對齊方面。

    • 并排人類評估;

    • 對語意合成性、基數性、空間關系、長文本、生詞和具有挑戰性的提示幾方面提出了系統化的考驗;

    • 由于圖像-文本對齊和圖像保真度的優勢,相對于其他方法,用戶強烈傾向于使用Imagen。

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    圖注:Imagen與DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比較:用戶對圖像-文本對齊和圖像逼真度的偏好率(95%置信區間)

    Imagen與DALL-E 2 生成圖像的比較示例 :

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    圖注:“外星人綁架奶牛,將其吸入空中盤旋”(上);“一個被貓絆倒的希臘男性的雕塑”(下)

    對于涉及顏色的文本提示,Imagen生成的圖像也比DALL-E 2更優。DALL-E 2通常很難為目標圖像分配正確的顏色,尤其是當文本提示中包含多個對象的顏色提示時,DALL-E 2會容易將其混淆。

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    圖注:Imagen和DALL-E 2從顏色類文本生成圖像的比較。“一本黃色書籍和一個紅花瓶”(上);“一個黑色蘋果和一個綠色雙肩包”(下)

    而在帶引號文本的提示方面,Imagen生成圖像的能力也明顯優于DALL-E 2。

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    圖注:Imagen 和 DALL-E 2 從帶引號文本生成圖像的比較。“紐約天際線,天上有煙花寫成的“Hello World”字樣”(上);“一間寫著Time to Image的店面”(下)



    3

    打開了潘多拉魔盒?

    像Imagen這樣從文本生成圖像的研究面臨著一系列倫理挑戰。

    首先,文本-圖像模型的下游應用多種多樣,可能會從多方面對社會造成影響。Imagen以及一切從文本生成圖像的系統都有可能被誤用的潛在風險,因此社會要求開發方提供負責任的開源代碼和演示。基于以上原因,Google決定暫時不發布代碼或進行公開演示。而在未來的工作中,Google將探索一個負責任的外部化框架,從而將各類潛在風險最小化。

    其次,文本到圖像模型對數據的要求導致研究人員嚴重依賴于大型的、大部分未經整理的、網絡抓取的數據集。雖然近年來這種方法使算法快速進步,但這種性質的數據集往往會夾帶社會刻板印象、壓迫性觀點、對邊緣群體有所貶損等“有毒”信息。

    為了去除噪音和不良內容(如色情圖像和“有毒”言論),Google對訓練數據的子集進行了過濾,同時Google還使用了眾所周知的LAION-400M數據集進行過濾對比,該數據集包含網絡上常見的不當內容,包括色情圖像、種族主義攻擊言論和負面社會刻板印象。Imagen依賴于在未經策劃的網絡規模數據上訓練的文本編碼器,因此繼承了大型語言模型的社會偏見和局限性。這說明Imagen可能存在負面刻板印象和其他局限性,因此Google決定,在沒有進一步安全措施的情況下,不會將Imagen發布給公眾使用。

    參考鏈接:

    https://gweb-research-imagen.appspot.com/

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    雷峰網雷峰網(公眾號:雷峰網)

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    逼真度超越「AI設計師」DALL·E 2!谷歌大腦推出新的文本生成圖像模型——Imagen

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 高清美女视频一区二区三区| 国产成人精品视频ⅴa秋霞影院| 亚洲第一香蕉视频啪啪爽| 国产v片| 久久亚洲精品中文| 永久免费AV无码网站YY| 国产在线午夜不卡精品影院| 精品久久久久久无码中文野结衣| 人妻有码中文字幕在线| 国产成人a在线观看视频| 伊人久久大香线蕉综合观| 国产不卡在线一区二区| 尼勒克县| 午夜夜伦鲁鲁片免费无码| 无码狠狠躁久久久久久久91| 久久这里都是精品二| 少妇厨房愉情理伦片BD在线观看| 色综合人人超人人超级国碰| 天天综合亚洲| 亚洲av网址| A男人的天堂久久A毛片| 久久天天躁狠狠躁夜夜97| 又大又粗欧美成人网站| 成人啪啪高潮不断观看| 国产精品免费福利久久播放| 精品无码毛片| 伊人久久一区二区三区无码| 性色欲情网站iwww| 日韩激情一区二区三区| 国产av一区二区不卡| www亚洲精品少妇裸乳一区二区| 国产成人77亚洲精品www| 久久综合色之久久综合| 国产精品亚洲二区在线看| 日本精品极品视频在线| 天码AV无码一区二区三区四区 | 青草草97久热精品视频| 一本大道中文日本香蕉| 内射自拍| 亚洲国产精品日韩AV专区| 国产精品亚洲欧洲人成网站|