• <sub id="pqc61"><p id="pqc61"></p></sub><sub id="pqc61"></sub>
    在线精品视频一区二区,亚洲中文字幕无码一久久区,正在播放肥臀熟妇在线视频,国内精品视频一区二区三区八戒 ,国产毛片三区二区一区,国产精品一区中文字幕,丰满少妇被猛烈进出69影院,国产成人无码
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給林軍
    發送

    0

    比 Sora DiT 架構早兩個月的 U-ViT,由這家中國 AIGC 公司提出

    本文作者: 林軍 2024-03-13 15:10
    導語:CVPR2023 曾拒稿 OpeanAI 的 DiT,收錄生數科技的 U-ViT。


    「Sora 出來之后,團隊就開始連軸轉,沒休息過。」這是 AI 科技評論了解到的,目前國內諸多 AIGC 創業公司的現狀。

    Sora 的確讓世界范圍內的創業公司措手不及。隨之而來的,有一種悲觀論調和懷疑態度:創業公司和 OpenAI 拼術是否有意義?是否有必要做同樣的事情?有多大的生存空間?

    誠然,要彌合和 OpenAI 的差距并非易事,基于算力、投資等前提條件, OpenAI 的效果自然不是短期內可以達到,但是也不見得到了技術層的創業公司無路可走的地步。

    清華系創業團隊生數科技提出的技術路線,和 Sora 在架構路線上完全一致,均是提出了將Transformer 與擴散模型融合的思路,在具體的實驗路徑上也一致。并且,生數科技的 U-ViT 比 OpenAI 的 DiT 早了兩個月。

    甚至,彼時的 CVPR2023 選擇收錄了U-ViT,而將 DiT 拒稿。

    目前,生數科技的多模態大模型全鏈路均自主訓練、自主研發,是全球首個將Transformer架構引入擴散模型的骨干網絡。在文生圖、文生視頻、文生3D、圖生3D等多項任務中已經初見成效。

    近來,也完成了由啟明創投領投,達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲跟投的數億元融資,是目前國內多模態大模型賽道的最高融資額。

    生數科技 CEO 唐家渝表示,面對國內多模態大模型的競爭,生數科技會承擔引領國內底層技術創新的角色。

    即使在 Sora 的籠罩下,國內的多模態大模型也不無機會。


    全棧自研的 MaaS

    2023年3月,團隊開源了全球首個基于Diffusion Transformer架構(U-ViT)的多模態擴散大模型 UniDiffuser,在參數量和訓練數據規模上,與Stable Diffusion直接對齊。在架構上,UniDiffuser 比最近才采用 DiT 架構的 Stable Diffsion 3 領先了一年。

    除了單向的文生圖以外,Unidiffuser支持更通用的圖文任務,能夠實現圖生文、圖文聯合生成、圖文改寫等多種功能。

    在統一化架構的思路下,生數科技持續 Scale up。在圖文模型的訓練中,參數量從最早開源版的1B不斷擴展至3B、7B、10B及以上。同時在此基礎上,通過拓展空間維度和時間維度,逐步實現 3D 生成與視頻生成。同時面向應用層推出了視覺創意設計平臺PixWeaver與3D 資產創建工具 VoxCraft。

    PixWeaver是一款自動化的視覺創作工具,支持AI生圖、AI生視頻功能,中英文輸入、秒級生成,融合多元風格,具備出色的語義理解和豐富的畫面表現。(體驗地址:https://pw.shengshu-ai.com/,目前AI視頻功能由于新版本迭代暫關閉試用)

    在圖像生成方面,支持高質量的文生圖,在畫面聯想豐富度、美觀性等方面優于業內同類模型。


    比 Sora DiT 架構早兩個月的 U-ViT,由這家中國 AIGC 公司提出

    并且,其語義理解能力尤其突出。

    比 Sora DiT 架構早兩個月的 U-ViT,由這家中國 AIGC 公司提出

    (描述詞:公園里的竹林里掛著紅色燈籠,旁邊盛開著粉紅色的梅花,遠處是一座亭臺樓閣,夕陽灑在蜿蜒的公園小路呈現出溫暖的感覺,寶麗來照片風格,真實攝影)

    比 Sora DiT 架構早兩個月的 U-ViT,由這家中國 AIGC 公司提出

    在3D 生成方面,VoxCraft可實現高精度與最快10秒級的模型生成。

    比 Sora DiT 架構早兩個月的 U-ViT,由這家中國 AIGC 公司提出

    并推出全球首個4D動畫生成,基于視頻和描述詞,輸出逐幀的運動3D動畫,自動綁定骨骼動作,支持360°全景視角。

    此外,該模型還可以通過文本對話或手動調參的方式靈活編輯3D場景,包括添加物體、刪除物體等,可實時查看變化。

    VoxCraft 相較于同類型的3D資產創建的自動化工具,核心優勢在于:

    精度高:貼圖分辨率可達到2048*2048,幾何結構的規整度高,色彩與材質質感真實度高;

    速度快:在單卡設備上,單個3D模型生成最快可在數分鐘內生成;

    可用性強:支持Mesh的同步生成,支持高模、低模的定制,可直接對接工業管線;

    豐富度高:覆蓋資產類型多,通用性強,支持文本或圖像引導。


    最接近 Sora 技術架構的中國團隊

    從技術架構來看,生數科技是最接近于 Sora 的中國團隊。

    OpenAI推出的Sora模型,其核心技術點之一,是將視覺數據轉化為Patch的統一表示形式,并通過Transformer和擴散模型結合,展現了卓越的scale特性。無獨有偶,最近發布的Stable Diffusion 3采用了同樣的架構。

    Transformer架構被熟知應用于大語言模型,該架構的優勢在于scale特性,參數量越大,效果越好;而在傳統視覺任務(圖像和視頻生成)中,業內普遍采用常規的卷積路線的擴散模型(基于SD開源的思路),該路線能實現一定的效果,但擴展性不好。DiT將Transformer架構與擴散模型融合,把大語言模型的擴展性、涌現性復制到了視覺任務上。

    其實早在2022年9月,生數科技團隊早期成員就提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Model》的論文,這篇論文提出了基于transformer的網絡架構U-ViT。

    對比來看,兩項工作采用了相同的patch embedding、patch size,都得出了同樣的結論patch size為2*2是最理想的,在模型參數量上兩者都在50M-500M左右的參數量上做了實驗,最終都證實了scale特性。

    不過DiT僅在ImageNet上做了實驗,U-ViT在小數據集(CIFAR10、CelebA)、ImageNet、圖文數據集MSCOCO均做了實驗。此外,相比傳統的 Transformer,U-ViT提出了一項“長連接”的技術,大大提升了訓練收斂速度。

    但U-ViT同樣展示了在視覺任務下的優異能力,與當時同階段的SD1.5 比較,Unidiffuser效果是基本持平的。更重要是,Unidifuser擴展性更強,能基于一個底層模型完成圖文之間的任意生成。

    生數團隊的幾位核心成員近幾年于ICML、NeurIPS、ICLR 等人工智能頂會發表相關論文近30篇,是現階段在該領域發表論文成果數最多的國內團隊。

    抱持著底層算法原始創新、從零開始自主訓練的態度,生數科技團隊也形成了多項能與其他公司拉開差距的技術成果。

    無訓練推理框架Analytic-DPM

    擴散模型的一大局限是計算速度緩慢,研究加速算法是提升擴散模型應用效果的難點。

    2022年,團隊核心成員提出了一種無訓練推理框架:Analytic-DPM,使用蒙特卡洛方法和預訓練的基于得分模型來估計方差和 KL 散度的分析形式。該方法可以在無需額外訓練的情況下,直接估計得到最優方差,該成果在理論貢獻方面具有重要意義。

    另外從應用效果看,免訓練推理框架的提出大大加速了模型的采樣效率,經對比,Analytic-DPM經過 50 步采樣的效果優于 DDPM 采樣 1000 步的效果,加速了近 20 倍。

    該論文被評選為ICLR2022杰出論文,也是該會議首篇由中國大陸單位獨立完成的獲獎論文,此外該成果也被OpenAI 應用于 DALL·E2 模型處理方差的策略中。

    多模態基礎大模型 UniDiffuser

    2023年3月,團隊開源國內首個基于Transformer的多模態擴散大模型UniDiffuser,采用了基于transformer的網絡架構U-ViT,在開源的大規模圖文數據集LAION-5B上訓練了一個十億參數量的模型,實現基于一個底層模型能夠高質量地完成多種生成任務。雷峰網雷峰網(公眾號:雷峰網)雷峰網

    除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能,能夠實現任意模態之間的轉化,大幅提升文圖內容的生產效率,也進一步提升了生成式模型的應用想象力。

    更值得一提的是,從技術路線看,生數科技是國內唯一的原生多模態大模型廠商,原生多模態是基于通用的融合架構對文本、圖像、視頻等多模態數據進行統一范式的訓練,簡單類比就是基于一個底層架構實現“GPT4+DALLE3+GPT4V”的統一,而不是通過接口調用不同的模型。生數科技堅持融合架構的原生路線,致力于提升對開放域下復雜交互場景的信息生成能力。

    本文作者長期關注 AIGC 落地應用、大模型和數字人領域,歡迎添加微信:s1060788086,交流認知,互通有無。


    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    比 Sora DiT 架構早兩個月的 U-ViT,由這家中國 AIGC 公司提出

    分享:
    相關文章
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    主站蜘蛛池模板: 国产精品美女黑丝流水| 日韩在线精品人妻| 久久综合狠狠综合久久| ,国产乱人伦无码视频| 精品国产成人亚洲午夜福利| 伊人久久免费视频| 兰州市| 欧美成人精品一区二区三区| 无码日韩精品一区二区三区免费| 亚洲国产AV一区二区三区| 亚洲一卡二卡精久久| 久久99精品网久久| 少妇久久久久久被弄到高潮| 成人特级毛片WWW免费版| V一区无码内射国产| 99婷婷| 九九久久自然熟的香蕉图片| 欧美性受XXXX黑人猛交| 欧美老人巨大XXXX做受视频| 花蝴蝶6高清电视剧资源| 天天色欧美综合| 香蕉久久夜色精品国产小说| 欧美牲交40_50a欧美牲交aⅴ| 你懂的在线视频一区二区| 亚洲人成网7777777国产| 国产片AV在线永久免费观看| 国产成人AV| 亚洲精品色国语对白在线| 51自拍视频| 亚洲中文字幕日产乱码| 亚洲欧美日韩综合久久久| 国产肥妇一区二区熟女精品| 国产丝袜在线精品丝袜| 性爱免费视频| 无码国产偷倩在线播放| 久久福利| 亚洲乱色伦图片区小说| 国产激情一区二区三区午夜| 成人亚洲av免费在线| 2021久久精品国产99国产精品| 熟妇网|