Sora 面世，視頻生成的 GPT-3 時刻來了

本文作者：林軍

2024-02-26 19:05

導語：短視頻生成模型的比拼中，誰能拔得頭籌？

2月16日凌晨，正值中國春節法定節假日期間，OpenAI 毫無預兆地發布了 AI 視頻生成大模型 Sora。看過視頻效果后，網友紛紛感嘆「現實，不存在了。」

不夸張地說，Sora 的技術結果直接碾壓了過去世界范圍內所有文生視頻的探索結果，顛覆了 AI 短視頻生成的現狀。又一次，OpenAI 拉開了和 Pika 、Runway 等知名文生視頻團隊的代差，鞏固了“遙遙領先”的“AI 霸主”地位。

基于此，可以預見的是：接下來，很多傳統的影視公司、視頻素材行業，甚至是新興的虛擬拍攝制作、特效生成領域都要迎來“大變天”。更有網友戲謔調侃：OpenAI 沒有停下殺掉初創公司的腳步。

以 ChatGPT 為首的人工智能正在改寫世界的邏輯，帶來誘人機遇，吸引諸多創業者前赴后繼，但同時，冒險者也面臨巨大不確定性，所有努力可能在頃刻間化為烏有。無論是 OpenAI 開發者大會發布的 GPTs 等一系列新成果，還是文生視頻底層大模型 Sora 的問世，都「抄」了很多創業者的后路。

但實際上，Sora 并非 2024 年 AI 短視頻生成領域的唯一“開門紅”。2 月 16 日，海外各科技巨頭紛紛亮相了 2024 開年的新產品：除了OpenAI 的 Sora 這一記驚雷之外，Google 發布了 Gemini Pro 1.5，Meta 也發布了全新視頻生成模型 V-JEPA。

春節前，著名科技網紅周鴻祎調侃大模型 “去年（2023 年）像原子彈，今年（2024 年）像茶葉蛋”；但在 OpenAI 推出 Sora 后，也紛紛改口，稱“AGI 實現將從 10 年縮短到 1 年”。Sora 對現實物理世界的理解與模擬，超出了所有人的想象，在 Sora 的推動下，大模型的競爭也從 2023 年的暗流涌動，轉為 2024 年的風起云涌。

2023 年，國產大模型的呼聲高開低走，年底一度出現唱衰大模型的聲音。但在科技大趨勢面前，真正的追隨者一直遵循同一個原則，即長期主義。2024 年將是大浪淘沙的一年，一部分人已經放棄，另一部分人則繼續火力全開，如 OpenAI、谷歌與 Meta。

時代，永遠眷顧有準備的人。

萬眾矚目的 Sora

先來看風頭最盛的 OpenAI Sora。

“生活中最大的樂趣之一就是發現未被發現的人才，賦予他們堅定的信念，并看著他們改變事物的軌跡。”

信任并不吝嗇于給予年輕人資源——這一理念深深植根于 OpenAI 的基因中。Sora 的兩位研發核心負責人Tim Brooks 和 William (Bill) Peebles 便是年輕的技術人才，兩人同為美國加州大學伯克利分校的博士同窗，師從計算機視覺先驅 Alyosha Efros，并均在 2023 年畢業。

為何應屆博士生能成為 Sora 負責人，帶領團隊扔出這個重磅炸彈？回顧二人的過往經歷，不難發現，他們能夠研發 Sora，并非幸運或偶然。

Tim Brooks 早兩個月加入 OpenAI——去年 1 月 PhD 畢業后，Tim Brooks就絲滑入職 OpenAI，參與了 DALL·E-3 的工作。

Tim Brooks個人網站：https://www.timothybrooks.com/about/

2017 年 8 月，Tim Brooks 本科畢業于卡內基梅隆大學，畢業后加入了谷歌的 Pixel 團隊，研究 AI 在手機攝像頭上的應用。

2019 年，Tim Brooks 在年初結束了在谷歌的工作，并于同年8月進入 UC Berkeley（加州大學伯克利分校）攻讀PhD。就讀期間，Tim Brooks 以實習生的身份加入 Nvidia，領導了視頻生成的項目。

在 PhD 時期，Tim Brooks還與導師Alyosha Efros和現谷歌科學家Aleksander Holynski一起研發了一個條件擴散模型——InstructPix2Pix，它不需進行微調，能在幾秒鐘內快速編輯圖像。該模型結合了GPT-3和Stable Diffusion語言和圖像兩種模型的互補知識，為跨越兩種模態的任務創建配對訓練數據，并根據該數據訓練而成。

該研究成功入選CVPR 2023 Highlight。

但 Tim Brooks 不僅僅是一位技術人才。在他的個人網站里，還能看到他攝影、阿卡貝拉、BeatBox 相關的作品。其高中時期的攝影作品甚至獲得了國家地理的獎項，他還曾在紐約百老匯的燈塔劇院演出，并獲得 BeatBox 的國際獎項。

Tim Brooks 這樣形容自己：“我對計算機科學和人工智能的職業充滿熱情，幸運的是它與我對攝影、電影和音樂的熱愛融為一體。”

與 Tim Brooks 師出同門的 William Peebles 則在兩個月后也加入了 OpenAI，兩人共同領導 Sora 團隊，負責研發工作。

William Peebles個人網站：https://www.wpeebles.com/

William Peebles 本科就讀于 MIT 的計算機科學專業，期間加入了 MIT 知名的計算機科學與人工智能實驗室（CSAIL），參與了 GAN 和 text2video 相關的研究。本科時期他曾在英偉達的深度學習與自動駕駛團隊實習，研究計算機視覺。

2019年，William 加入加州大學伯克利分校開啟了他的博士學習之旅。就讀期間，William 繼續研究 GAN，并先后在 Adobe 和 Meta 實習。

值得一提的是，自 2022 年 5 月至 12 月，William 在 Meta 僅實習不到一年，就與當時仍在 Meta 任職的 AI 技術大牛謝賽寧合作發表了 DiT（Diffusion Transformer）模型，首次將擴散模型與 Transformer 結合起來。此研究發表在 ICCV 2023 上，新鮮出爐的 Sora 就是建立在 DiT 的基礎上的。

謝賽寧在推特上解讀 Sora 與 DiT 模型

Sora 展現出驚人的視頻效果，其背后的技術原理包含了文生視頻技術變革的潛力。在 OpenAI 官網最新發布的技術報告中，可以窺探到 Sora 顛覆的技術細節。

借鑒 Transformer 架構的 Diffusion 擴散模型

Sora 大體技術架構和 Walt 類似，側面說明整體的技術框架在行業內已逐漸確定下來。根據技術報告分析，Sora 的優勢可能在于：找到了更好的表征視頻數據的方式。

雖然 Sora 本質上采用的仍然是 Diffusion 擴散模型，但 Sora 把其中的實現邏輯 U-Net 架構替換成了 Transformer 架構。

基于 Transformer 的實現，依賴視覺數據向量化，Sora 用 visual patches 代表被壓縮后的視頻向量進行訓練，每個「patches」相當于GPT中的一個「token」。

所謂的 patches 是一種高度可擴展和有效的表示，帶有時間和空間信息，還可以自由排列，靈活度極高，可以用于訓練不同類型的視頻和圖像的生成模型。使用patches，可以對視頻、音頻、文字進行統一的表征。

和大模型中的 tokens 類似，Sora用 patches 表示視頻，把視頻壓縮到低維空間（latent space）后表示為Spacetime patches。

在 DiT 架構上，Sora 通過輸入的提示詞信息，即可預測下一個 patch 來生成視頻，就大模型預測下一個 token 生成文本一樣，這意味著 OpenAI 可以在訓練 Sora 時傾注更多的數據和計算資源以實現更優的效果。

Sora 甚至能夠接受帶有噪聲的圖像塊（及條件信息如文本提示）作為輸入，并被訓練以預測出原始的“清晰”圖像塊。

2023 年，在文生視頻領域，行業內一致認為，現有的視頻生成工具有一個共同難點，即運動一致性的持續性。針對這個問題，OpenAI 堅持了“壓縮即智能”的技術路線，建立了相對完善的訓練機制，從噪聲開始，逐步精煉其生成的視頻，直到出現生動、連貫的場景。這種架構不僅保證了 Sora 的高效率和可擴展性，也使其能夠處理各種格式和比例的視覺內容。

不過，盡管 Sora 在 60 秒短視頻的生成上效果大幅提升，仍有技術人員向 AI 科技評論表示，“運動一致性”在短期內仍是文生視頻領域的一大掣肘。

可變持續時間、分辨率、寬高比

過去的圖像和視頻生成方法通常將視頻調整為標準尺寸、裁剪或修剪——例如，256x256 分辨率的 4 秒視頻。Sora 則更加靈活多樣，可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的一切。

這允許 Sora 直接以原生寬高比為不同設備創建內容。它還允許在以全分辨率生成之前，以較低的尺寸快速制作內容原型——所有這些都使用相同的模型。

改進的框架和構圖

根據 OpenAI 的實驗，以原生寬高比進行視頻訓練可以改善構圖。將 Sora 與其他模型版本進行比較，發現其他模型會將所有訓練視頻裁剪為正方形，這通常是訓練生成模型時的常見做法。在其他模型（上）生成的視頻中，主體僅部分出現在視野里。相比之下，Sora（下）的視頻則有明顯的改進。

Sora 脫穎而出，不僅因為其獨到的文本解析能力，更在于其重現物理世界動態的獨特方式。它不僅僅是一個文本到視頻的轉換工具，而是一個能夠理解復雜命令并將其轉化為視覺故事的智能實體。與現有技術如 Runway 和 Pika 相比，Sora 在視頻生成的真實感和細節表現上已邁出了重要一步。

世界模型

盡管 Sora 和真正的世界模型相比仍存在一定差距，但顯而易見的是，與其他文生視頻模型相比，Sora 更擅長模擬現實世界中的人、動物和環境，且這種能力不需要對三維空間、物體等有任何特定的預設偏好——它們純粹是由數據規模驅動的結果。

此外，Sora 還能接受圖片或已有視頻作為輸入。這意味著 Sora 能夠完成各種圖片和視頻編輯任務，比如制作無縫循環視頻、給靜態圖片添加動畫效果、延長視頻的播放時間等。雷峰網(公眾號：雷峰網)雷峰網

Sora 具有三維空間的連貫性。它能生成帶有動態視角變化的視頻，當攝像機位置和角度變動時，視頻中的人物和場景元素能夠在三維空間中保持連貫移動。

在生成長視頻時，保持時間上的連續性一直是個挑戰。而 Sora 具有遠距離連續性與物體持久性，能夠有效處理短距離和長距離的依賴關系。比如，即使人物、動物或物體被遮擋或移出畫面，Sora 也能保持它們的連續存在，能在同一視頻樣本中多次展示同一角色，確保其外觀貫穿始終。

Sora 還能模擬出簡單地影響世界狀態的行為。例如，畫家在畫布上留下的筆觸隨時間持久存在，或者某人吃漢堡留下的咬痕，實現與世界的互動。

通過對視頻的學習，Sora在一定程度上能理解人類的現實物理世界，預判了物理世界中物體之間的關系。

除了現實世界，Sora 還能模擬數字化過程，如視頻游戲。它能在控制 Minecraft 游戲角色進行基本操作的同時，高質量渲染游戲世界及其動態。僅需通過提及“Minecraft”等字樣的提示，即可激發這些能力的展現。

Sora 之后，大模型的軍備競賽加劇

Sora 的性能的確足夠炸裂，從根本上來說，Sora 的打法就是在擁有足夠大量的訓練視頻基礎上，用多模態模型給視頻做標注，把不同格式的視頻編碼成統一的視覺塊（patches）嵌入，然后用足夠大的網絡架構加足夠大的訓練批次加足夠強的算力，讓模型對足夠多的訓練集做全局擬合。

有行業內人士如此評價 OpenAI 這一解決方案：雖然不是十分高深，但卻是聰明的，是務實的訓練方式和算力結合之后向前邁的一大步。

可以說，OpenAI 憑借 Sora 在國內外 AI 領域中又引發了一場沒有硝煙的戰爭。

谷歌、Meta 等先入場的巨頭們也展示各自力量，紛紛謀劃如何守住自身陣地，增強自身 AI 武器裝備，進行新一輪軍備競賽較量，不至于落于后風。

首當其沖的就是谷歌。在 OpenAI 發布 Sora 的 2 小時之前，谷歌就已經先發布了 Gemini Pro 1.5。

從模型的性能來講，谷歌 Gemini Pro 1.5 在多個維度上都有顯著改進，能夠跨模態進行高度復雜的理解和推理，其威力也可以稱得上是王炸級別。

尤其是在長語境理解方面實現了突破，在 GPT-4 能理解的上下文長度是 128K，Claude 是 200K 的背景下， Gemini Pro 1.5 提升至 10M。也就是說，1 個小時的視頻、11 個小時的音頻、超過 70 萬字的代碼庫，它都可以一次性閱讀處理完。

除此之外， Gemini Pro 1.5 能夠同時處理文本、圖像、音頻、視頻等大量的多模態信息。例如，研究人員給 Gemini Pro 1.5 提供了一份長達 402 頁的阿波羅登月的任務記錄，然后向其提問這個腳印所代表的含義，Gemini Pro 1.5 能準確地記住信息并回答：這代表登月的那一刻，是個人的一小步，人類的一大步。

除了 OpenAI 的 Sora、谷歌的 Gemini Pro 1.5，Meta 在當地時間 2 月 15 日也發布了 V-JEPA （Video Joint-Embedding Predictive Architecture，即視頻聯合嵌入預測架構）。

V-JEPA 是基于圖靈三巨頭 Yann LeCun 提出的“自監督+世界模型”所構建的技術框架。Yann LeCun 認為必須讓機器學習世界模型，從而能夠填補缺失的信息，預測將要發生的事情和未來行動的影響。而 Yann LeCun 最早提出“自監督+世界模型”，是在 2022 年年初。可以說，Meta 醞釀 V-JEPA 已久。

V-JEPA 采用新的模型訓練方法，經過打磨也能開發類似 Sora 的短視頻生成產品，并解決視頻、圖像生成的幀間一致性問題。

在基準測試中，V-JEPA 表現不凡：Kinetics-400達到了 82.0% 的準確率，Something-Something-v2 達到了 72.2% 的準確率，ImageNet1K 中則在圖像分類任務上達到了 77.9% 的準確率。

這些成績部分超過了之前 SOTA 的視頻模型，顯示了 V-JEPA 在理解視頻內容、分類動作和圖像分類等方面的能力雛型，特別是對視頻中細節豐富的對象互動的理解能力。

有硅谷 AI 創業者向 AI 科技評論評價，Meta 在這波大模型競賽中最大的優勢是其一直奉承的開源路線。無論是語言大模型還是文生視頻大模型，Meta 的開源路線都對擁有理想主義情懷的技術極客們有著極大的吸引力，聚集人才、配齊算力，Meta 有機會做成大模型時代的“安卓”，一枝獨秀。

今日早晨，Meta 首席科學家、圖靈獎得主 Yann LeCun 也針對新晉的 Sora 發表了看法。Yann LeCun 是最早提出世界模型的科學家。他表達了對于 OpenAI 旗下 Sora 模型尚未能深入理解物理世界本質的思索，深度剖析了生成式模型在捕捉物理世界內在規律以及生成視覺內容方面存在的固有限制，并進一步探討了聯合嵌入預測架構（Joint Embedding Predictive Architecture, JEPA）相對于傳統生成式模型所展現出的獨特優勢。

關鍵點包括：

生成逼真視頻并不意味著系統具備對物理世界的真實理解，因為生成式模型僅需從概率分布中采樣合理結果，而非模擬真實的因果邏輯。

能夠生成符合物理規律及特定動作要求的連續視頻片段難度較大且計算成本高，實際價值有限。

JEPA著重于構建連續視覺片段的抽象表征，剝離無關動作決策的細節，通過預測而非直接生成來優化表示學習。

JEPA系列方法相較于專注于像素重建的生成模型（例如變分自編碼器、掩碼自編碼器、去噪自編碼器等），能夠在保持高質量的同時，生成對下游任務更具指導意義的視覺特征表示。

在下游任務應用中，聯合嵌入架構的學習表示作為監督信號輸入時，無需微調主干網絡就能取得優于生成式架構的表現。

作為 Meta 的首席科學家，Yann LeCun 自然會為 JEPA 站臺，在 Sora 率先引爆文生視頻大戰之后，雙方的競爭將呈現怎樣的發展趨勢，也讓大家十分關注。

此外，在 2 月16 號發布撞車的還有 Stability 的 SVD1.1，其官網曾發布 SVD1.1 正式介紹的推文，后被刪除。

諸多廠商在文生視頻大模型領域的競爭背后，是斥巨量資金支持海量實驗的結果，也是基于算力邏輯對「卡」的比拼。

思謀科技創始人賈佳亞在朋友圈公開評價：“Sora 是大力出奇跡，在學術界連 VIT 的 256*256 的分辨率都沒法改的情況下，Sora 直接用上了高清以及更大的分辨率，這沒幾千上萬張 H100 都不敢想象如何開始這個項目。”

基于此，有行業人士預測，英偉達也定會加入這場大模型或 AGI 的軍備競賽中。幾天前，英偉達也表示自己會造聊天機器人，發布了對話機器人「Chat with RTX」，面向 GeForce RTX 30 系列和 40 系列顯卡用戶。與 ChatGPT 等需要聯網使用的聊天機器人不同，Chat with RTX 可以在本地運行，幫助檢索、分析保存在電腦上的文件，并提供帶有上下文的答案。

英偉達的這一行為在一定程度上可以說是向 OpenAI 的護城河進攻。黃仁勛近期也就Sora發表了見解，他堅信，計算機科學與人類生物學的深度融合將成為未來科技進步的核心驅動力。

Sora 的發布讓 OpenAI 在大模型領域繼續保持了“遙遙領先”的優勢，但群雄逐鹿下，OpenAI 制霸天下的局面能持續多久也尚未可知。技術人士分析，半年內開源社區必有 Sora 的開源技術出現。

我們無法用提出問題的思維解決問題

在 Sora 這一標志性模型發布后，另一個火熱的話題討論是 Sora 的技術進步有可能加劇中美之間的人工智能技術水平差距。

有調研指出，相對于美國市場，2023 年，中國 AI 領域投融資領域處于“下滑”狀態。

CB insights 報告顯示，2023 年，中國 AI 領域投融資數量約為232筆，同比下降 38%；融資總額約為 20 億美元（約合 142.45 億元），同比下降 70%。特別是 2023 年第一季度，無論是融資額還是融資量，都創下了 5 年來最低。在 2023 年大模型角逐之中，中國明顯處于下風。

隨著 ChatGPT 引領了國人對自然語言處理（NLP）的關注熱潮，Sora 的出現則預示著生成式視頻內容可能成為海內外 AI 發展的下一波流行趨勢。截至 2023 年末，僅國內短視頻用戶規模已突破 10 億人，視頻生成賽道前景廣闊，也更容易讓普通大眾接受。

然而，對于 OpenAI 的追趕僅停留在技術層面的跟進并非長遠之策。對于國內眾多企業而言，在大模型競賽中，研究人員和開發者不僅需要解答已知的具體技術難題，更要具備前瞻視野，主動挖掘未來可能出現的問題，并通過革新整體技術路徑來應對日益復雜的AI技術研發挑戰。這是橫向競爭中遲早得面對的思維革新。

Sora 推出后，2023 年狂歡的語言大模型團隊緘默了，這就好比 2019 年至 2020 年期間，當國內的團隊還在追趕谷歌的預訓練語言模型、OpenAI 已經推出 1750 億參數的 GPT-3。也有投資人表示，從 Sora 再看國內的大模型團隊，內心的一大感受就是“太慢了”。

另一方面，從 OpenAI 的一系列舉措中可以看出，其對于生成式人工智能的發展路徑在于持續加大投入，堅信大力出奇跡，基于大語言模型成功，快速拓展到視頻領域，加上大量的訓練數據和算力，促使 OpenAI 快速迭代生成文生視頻模型，才出現了 Sora 的火爆。

這也給我們帶來了另一層啟示，即在 AI 技術的全局發展中，需要兼顧多個層面的考量，每一個細分領域的創新突破都是至關重要的，需要學會從整體布局與協同創新的角度出發，探尋和把握每一個細微變革所帶來的深遠影響。

可以用開源打閉源，可以快速對戰亦可以穩中求勝，更可以用算力來取得扼喉式的突破，但重要的是需要明白，我們無法用提出問題的思維解決問題。

雷峰網將繼續關注 Sora 后續，歡迎添加：s1060788086、lionceau2046、anna042023，交流認知，互通有無

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

林軍

編輯

發私信

當月熱門文章