比 Sora DiT 架構早兩個月的 U-ViT，由這家中國 AIGC 公司提出

本文作者：林軍

2024-03-13 15:10

導語：CVPR2023 曾拒稿 OpeanAI 的 DiT，收錄生數科技的 U-ViT。

「Sora 出來之后，團隊就開始連軸轉，沒休息過。」這是 AI 科技評論了解到的，目前國內諸多 AIGC 創業公司的現狀。

Sora 的確讓世界范圍內的創業公司措手不及。隨之而來的，有一種悲觀論調和懷疑態度：創業公司和 OpenAI 拼術是否有意義？是否有必要做同樣的事情？有多大的生存空間？

誠然，要彌合和 OpenAI 的差距并非易事，基于算力、投資等前提條件， OpenAI 的效果自然不是短期內可以達到，但是也不見得到了技術層的創業公司無路可走的地步。

清華系創業團隊生數科技提出的技術路線，和 Sora 在架構路線上完全一致，均是提出了將Transformer 與擴散模型融合的思路，在具體的實驗路徑上也一致。并且，生數科技的 U-ViT 比 OpenAI 的 DiT 早了兩個月。

甚至，彼時的 CVPR2023 選擇收錄了U-ViT，而將 DiT 拒稿。

目前，生數科技的多模態大模型全鏈路均自主訓練、自主研發，是全球首個將Transformer架構引入擴散模型的骨干網絡。在文生圖、文生視頻、文生3D、圖生3D等多項任務中已經初見成效。

近來，也完成了由啟明創投領投，達泰資本、鴻福厚德、智譜AI、老股東BV百度風投和卓源亞洲跟投的數億元融資，是目前國內多模態大模型賽道的最高融資額。

生數科技 CEO 唐家渝表示，面對國內多模態大模型的競爭，生數科技會承擔引領國內底層技術創新的角色。

即使在 Sora 的籠罩下，國內的多模態大模型也不無機會。

全棧自研的 MaaS

2023年3月，團隊開源了全球首個基于Diffusion Transformer架構（U-ViT）的多模態擴散大模型 UniDiffuser，在參數量和訓練數據規模上，與Stable Diffusion直接對齊。在架構上，UniDiffuser 比最近才采用 DiT 架構的 Stable Diffsion 3 領先了一年。

除了單向的文生圖以外，Unidiffuser支持更通用的圖文任務，能夠實現圖生文、圖文聯合生成、圖文改寫等多種功能。

在統一化架構的思路下，生數科技持續 Scale up。在圖文模型的訓練中，參數量從最早開源版的1B不斷擴展至3B、7B、10B及以上。同時在此基礎上，通過拓展空間維度和時間維度，逐步實現 3D 生成與視頻生成。同時面向應用層推出了視覺創意設計平臺PixWeaver與3D 資產創建工具 VoxCraft。

PixWeaver是一款自動化的視覺創作工具，支持AI生圖、AI生視頻功能，中英文輸入、秒級生成，融合多元風格，具備出色的語義理解和豐富的畫面表現。（體驗地址：https://pw.shengshu-ai.com/，目前AI視頻功能由于新版本迭代暫關閉試用）

在圖像生成方面，支持高質量的文生圖，在畫面聯想豐富度、美觀性等方面優于業內同類模型。

比 Sora DiT 架構早兩個月的 U-ViT，由這家中國 AIGC 公司提出

并且，其語義理解能力尤其突出。

比 Sora DiT 架構早兩個月的 U-ViT，由這家中國 AIGC 公司提出

（描述詞：公園里的竹林里掛著紅色燈籠，旁邊盛開著粉紅色的梅花，遠處是一座亭臺樓閣，夕陽灑在蜿蜒的公園小路呈現出溫暖的感覺，寶麗來照片風格，真實攝影）

比 Sora DiT 架構早兩個月的 U-ViT，由這家中國 AIGC 公司提出

在3D 生成方面，VoxCraft可實現高精度與最快10秒級的模型生成。

比 Sora DiT 架構早兩個月的 U-ViT，由這家中國 AIGC 公司提出

并推出全球首個4D動畫生成，基于視頻和描述詞，輸出逐幀的運動3D動畫，自動綁定骨骼動作，支持360°全景視角。

此外，該模型還可以通過文本對話或手動調參的方式靈活編輯3D場景，包括添加物體、刪除物體等，可實時查看變化。

VoxCraft 相較于同類型的3D資產創建的自動化工具，核心優勢在于：

精度高：貼圖分辨率可達到2048*2048，幾何結構的規整度高，色彩與材質質感真實度高；

速度快：在單卡設備上，單個3D模型生成最快可在數分鐘內生成；

可用性強：支持Mesh的同步生成，支持高模、低模的定制，可直接對接工業管線；

豐富度高：覆蓋資產類型多，通用性強，支持文本或圖像引導。

最接近 Sora 技術架構的中國團隊

從技術架構來看，生數科技是最接近于 Sora 的中國團隊。

OpenAI推出的Sora模型，其核心技術點之一，是將視覺數據轉化為Patch的統一表示形式，并通過Transformer和擴散模型結合，展現了卓越的scale特性。無獨有偶，最近發布的Stable Diffusion 3采用了同樣的架構。

Transformer架構被熟知應用于大語言模型，該架構的優勢在于scale特性，參數量越大，效果越好；而在傳統視覺任務（圖像和視頻生成）中，業內普遍采用常規的卷積路線的擴散模型（基于SD開源的思路），該路線能實現一定的效果，但擴展性不好。DiT將Transformer架構與擴散模型融合，把大語言模型的擴展性、涌現性復制到了視覺任務上。

其實早在2022年9月，生數科技團隊早期成員就提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Model》的論文，這篇論文提出了基于transformer的網絡架構U-ViT。

對比來看，兩項工作采用了相同的patch embedding、patch size，都得出了同樣的結論patch size為2*2是最理想的，在模型參數量上兩者都在50M-500M左右的參數量上做了實驗，最終都證實了scale特性。

不過DiT僅在ImageNet上做了實驗，U-ViT在小數據集（CIFAR10、CelebA）、ImageNet、圖文數據集MSCOCO均做了實驗。此外，相比傳統的 Transformer，U-ViT提出了一項“長連接”的技術，大大提升了訓練收斂速度。

但U-ViT同樣展示了在視覺任務下的優異能力，與當時同階段的SD1.5 比較，Unidiffuser效果是基本持平的。更重要是，Unidifuser擴展性更強，能基于一個底層模型完成圖文之間的任意生成。

生數團隊的幾位核心成員近幾年于ICML、NeurIPS、ICLR 等人工智能頂會發表相關論文近30篇，是現階段在該領域發表論文成果數最多的國內團隊。

抱持著底層算法原始創新、從零開始自主訓練的態度，生數科技團隊也形成了多項能與其他公司拉開差距的技術成果。

無訓練推理框架Analytic-DPM

擴散模型的一大局限是計算速度緩慢，研究加速算法是提升擴散模型應用效果的難點。

2022年，團隊核心成員提出了一種無訓練推理框架：Analytic-DPM，使用蒙特卡洛方法和預訓練的基于得分模型來估計方差和 KL 散度的分析形式。該方法可以在無需額外訓練的情況下，直接估計得到最優方差，該成果在理論貢獻方面具有重要意義。

另外從應用效果看，免訓練推理框架的提出大大加速了模型的采樣效率，經對比，Analytic-DPM經過 50 步采樣的效果優于 DDPM 采樣 1000 步的效果，加速了近 20 倍。

該論文被評選為ICLR2022杰出論文，也是該會議首篇由中國大陸單位獨立完成的獲獎論文，此外該成果也被OpenAI 應用于 DALL·E2 模型處理方差的策略中。

多模態基礎大模型 UniDiffuser

2023年3月，團隊開源國內首個基于Transformer的多模態擴散大模型UniDiffuser，采用了基于transformer的網絡架構U-ViT，在開源的大規模圖文數據集LAION-5B上訓練了一個十億參數量的模型，實現基于一個底層模型能夠高質量地完成多種生成任務。雷峰網雷峰網(公眾號：雷峰網)雷峰網

除了單向的文生圖，還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能，能夠實現任意模態之間的轉化，大幅提升文圖內容的生產效率，也進一步提升了生成式模型的應用想象力。

更值得一提的是，從技術路線看，生數科技是國內唯一的原生多模態大模型廠商，原生多模態是基于通用的融合架構對文本、圖像、視頻等多模態數據進行統一范式的訓練，簡單類比就是基于一個底層架構實現“GPT4+DALLE3+GPT4V”的統一，而不是通過接口調用不同的模型。生數科技堅持融合架構的原生路線，致力于提升對開放域下復雜交互場景的信息生成能力。

本文作者長期關注 AIGC 落地應用、大模型和數字人領域，歡迎添加微信：s1060788086，交流認知，互通有無。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

林軍

編輯

發私信

當月熱門文章