潞晨科技尤洋：如何用低成本做出類Sora？成功復現有四個要素

來源：飛行的小豬釋出時間：2024-05-09 16:23

作者 | GenAICon 2024

2024中國生成式AI大會於4月18-19日在北京舉行，在大會第二天的主會場AI Infra專場上，新加坡國立大學校長青年教授、潞晨科技創始人兼董事長尤洋以《技術共享：類Sora開源架構模型與訓練細節》為題發表演講。

潞晨科技在今年3月開源的全球首個類Sora影片生成模型Open-Sora，是迄今GitHub上獲得星標數最高的開源影片大模型專案之一，截至發稿前已有1.6萬個星標，使用者群體遍及全球。

值得一提的是，這個模型在低成本下訓練而成，相比Sora耗費數千張H100 GPU、花費數千萬美元乃至數億美元，Open-Sora的訓練成本僅不到1萬美元。

尤洋認為，影片生成正處於“GPT-2時刻”，還沒有出現成熟的應用。對於影片生成模型來說，資料可能是最核心的資產。他還談到，模型開源是有意義且重要的。正如Meta最新發布的Llama 3，極大地調動了開源社群的積極性，不但造福大量開發者，更有助於開源社群整體的繁榮。

因此，Open-Sora模型也進行了全面的訓練流程開源，開源了包括模型架構、模型權重、訓練細節、資料處理在內的多項技術細節，讓更多的開發者可以嘗試Open-Sora模型，共同迭代與升級。

在演講期間，他詳細解讀了成功復現類Sora影片生成模型的四個關鍵要素，並分享了Open-Sora的底層架構、demo和教程。

在他看來，考慮到成本壓力，影片生成模型將分為大規模影象預訓練、大規模影片預訓練、高質量影片資料微調三個階段。在模型設計上，時空分割處理將是明顯降低影片生成模型計算成本和記憶體壓力的關鍵一步。他還提到，Open-Sora未來的發展方向主要在於完善資料處理流程以及訓練影片壓縮Encoder。

以下為尤洋的演講實錄：

我演講的主題是最近做的Open-Sora，希望幫助更多中小企業以及研究人員去快速地復現類似Sora這樣的影片生成模型。

首先簡要介紹一下我的技術背景。這張照片拍攝自我博士畢業答辯時，圖中的人物包括我在加州大學伯克利分校的幾位教授，他們的專業背景主要集中在高效能計算（HPC）和計算機視覺（CV）領域。HPC的目標是提高模型訓練的效率，即用成百上千的處理器卡來加快訓練速度。CV則是影片生成模型的關鍵技術之一，這與我的個人技術背景非常相似。

目前，我們瞭解到大模型對計算能力的需求非常高，特別是在今天的Infra專場中，我們可以預見，未來對算力要求最高的模型可能會是影片生成模型。

今天我的分享旨在拋磚引玉，我認為影片生成模型目前還處於一個相對早期的發展階段，其情形有點類似於影片領域的GPT-2時期。市場上尚未出現一個完全成熟且廣泛可用的影片生成應用。因此，我將分享我們在這一領域的一些初步探索成果，並希望這能激發大家的興趣，進而深入探討。

本次演講將分為幾個部分。首先，我會簡單介紹Open-Sora模型，以及與之相關的OpenAI Sora。需要明確的是，儘管我們稱之為Open-Sora，也確實採用了類似於OpenAI技術報告中類似的技術，但它實際上是一個不同的模型。然後我將介紹Open-Sora的技術要點、效能表現，以及我們對未來發展的規劃。

一、未來人人都能成為導演，影片生成有顛覆教育和技術傳播的潛力

大家都看過Sora的Demo影片，其效果確實令人震撼。未來，我們可能會進入一個每個人都能成為導演的時代，每個人都能夠迅速生成自己想要的影片或故事，並且透過影片這種形式進行學習，這很可能比傳統的文字學習效率要高得多。

如果我們需要了解某個問題，能否讓AI為我們生成一段影片，以便快速掌握相關知識呢？我認為影片生成技術有潛力顛覆教育和技術傳播領域。

在Sora模型之前，市場上已經存在一些影片生成工具，例如Pika、RunwayML、Stable Video等。然而，Sora在影片長度上實現了顯著的突破，超越了之前所有頂尖產品，因此其效果仍是非常驚豔的。Sora的應用前景非常可觀，可以涵蓋遊戲、藝術、媒體創作、藥物研發、市場營銷和教育等多個領域。甚至在未來，許多物理模擬領域也可能採用影片生成模型。

儘管如此，影片生成技術目前尚未廣泛普及。我們希望能大幅降低製作電影或影片的成本。以今天的標準，製作一部優秀的電影可能需要高達五千萬美元的投資，這顯然限制了普通人參與的可能性。但如果未來有了提高前輩的影片生成模型，我們只需向AI描述我們的想法，它就能為我們生成一部高質量的動畫片或電影。

只有達到這樣的水平，影片生成模型的真正價值才能得到最大化的體現。

二、介紹首個類Sora開源影片生成模型，成功復現Sora有四個關鍵要素

在介紹了Sora及其影響力後，第二部分介紹一下Open-Sora。

Open-Sora是一個開源的影片生成模型專案，我們的目標是將模型的重要部分都公之於眾，以便社群能進一步發展這一技術。

要成功復現影片生成模型，主要包括幾個部分。

首先，需要了解模型的架構，比如我到底用的是Diffusion、Llama、GPT仍是BERT，不同的架構決定我模型基本的骨架。

其次，一旦模型訓練完成，分享訓練得到的權重也是非常重要的。這意味著其他人可以直接拿來用，而不需要從頭開始訓練模型。例如Meta剛剛開放了Llama 3，儘管4000億引數版本還沒有完全訓練完成，但已經可以從中看到很好的效果。透過分享這些權重，社群可以快速地將模型部署到各種應用中。

透過這種開放的方式，我們希望能夠促進影片生成技術的創新和普及，讓更多有興趣的研究者和開發者能夠參與進來，共同推動這一領域的發展。

第三點非常關鍵，它涉及到開源模型的透明度和可控性。

雖然現有的一些開源模型，如Llama 1和Llama 2，已經公開了模型引數和使用方式，但它們並沒有公開訓練過程的具體細節，包括超引數的設定。這導致了我們無法完全復現其預訓練過程，也就是說，模型的預訓練並不是百分百自主可控的。

我們認為，如果未來的影片生成大模型能夠實現百分之百的自主可控，那麼將能更有效地激發和調動整個行業的生產力。

此外，資料處理也是決定模型效能的一個關鍵因素。

透過審視OpenAI的技術報告，我們可以發現，儘管在模型架構和演算法方面，OpenAI並沒有特別強調其創新性，沿用瞭如Video Diffusion等現有模型，但OpenAI在資料方面做得非常出色。高質量的資料是決定影片生成效果的直接因素，因此，資料處理方式和資料集的質量極為關鍵。

三、解讀STDiT架構核心思想，將成本控制在1萬美元

我將展示一些我們的demo和教程，這將涵蓋開源模型的幾個重要組成部分。

從技術角度來看，Open-Sora模型採用了STDiT架構。我們選擇STDiT的主要原因是考慮到成本效益。我們的目標是將Open-Sora的成本控制在1萬美金或者更少。

STDiT架構的核心思想在於它包含時間維度的Self Attention和空間維度的Self Attention，這兩個方面是分開處理的，而不是合併計算，這樣的設計可以明顯降低模型的訓練和推理成本。相比於DiT模型，STDiT在成本上有著顯著的優勢，而且在相同的硬體條件下，其吞吐量也更高，這對於提升模型效率來說是非常有利的。

在架構方面，我們的創新點並不是特別多，核心思想仍然與DiT的架構相似。具體來說，處理影片的流程是這樣的：首先，我們獲取一個影片，然後透過Encoder將其壓縮到Latent Space中，這樣影片就可以在這個空間中進行互動和處理。這種方法實際上與文字到影象生成的技術非常相似。

我們對文生圖的概念並不陌生。我們首先對影片進行壓縮，目的是為了將其轉換到潛在空間中。壓縮有兩個主要目的：首先，原始影片檔案可能非常大，直接處理它們成本太高；其次，我們的目標是生成特定的影片內容，比如一隻狗在雪地裡追雪球的場景。如果我們不進行壓縮，而是直接在原始影片上操作，可能會生成不符合要求的內容，比如生成了一隻老虎或一隻貓，即使影片質量再高，如果內容不是我們想要的，那麼這樣的結果顯然是不可接受的。

透過這種方式，我們可以更有效地控制影片生成的過程，確保生成的影片內容符合我們的預期和需求。這種方法不僅降低了處理成本，而且提高了生成影片的準確性和相關性。

在潛在空間中，我們需要融入人類的指令，這些指令通常透過自然語言處理來實現。然而，自然語言資料型別並不能直接與影片資訊進行互動。因此，潛在空間的第二個關鍵作用是將自然語言也轉換到這個空間中。這樣潛在空間就包含了視覺資訊和文字資訊，使得這兩類資訊能夠在該空間內進行互動。這是我們壓縮影片並將其轉換到潛在空間的兩個主要目的。

完成這一過程後，我們的工作流程與文字到影象生成技術非常相似。文字到影片生成本質上是文字到影象生成的一種擴充套件，因為影片可以被視為一系列圖片的集合。在這種情況下，我們仍然需要借鑑許多文字到影象生成的技術。

具體到實現方式，與擴散模型的做法非常相似，我們透過引入高斯噪聲來生成所需的影片。首先，在潛在空間中隨機取樣一個高斯噪聲，然後將這個噪聲與人類的指令一起輸入模型，模型據此生成影片。最後，我們將生成的影片從潛在空間解碼回原始的三維空間，完成整個生成過程。

四、影片生成模型三階段：影象預訓練，影片預訓練，高質量影片資料微調

至於如何實現這一技術，考慮到成本的壓力，我們可以將其分為三個階段進行。

儘管今天介紹的技術在未來十年或二十年可能會被新的技術所取代，但在當前算力有限的情況下，我們可能需要採取分階段的方法來訓練高質量的影片模型。直接使用高質量影片資料訓練影片模型的成本可能高達數千萬甚至數億美元，這顯然限制了大多數人參與的可能性。

在成本受限的現實條件下，我們的策略是，首先找到一個不錯的文字到影象生成模型，這類模型目前比較容易獲取，市場上也有很多選擇，當然我們也可以自己訓練一個。

第二階段，有了文生圖模型，再給它大量影片做初始訓練，讓它對影片世界有很好的理解。

第三階段，用高質量、精挑的影片提升它的影片質量。這種思想在大模型領域已經用了七八年，早在2018年、我們訓練BERT的時候，BERT訓練也是分兩個階段，第一階段sequence是128，第二階段的sequence是512。短序列上讓它對自然語言有基本的理解，再在長序列上微調，給它一個更好的生成效果，這些其實都是出於成本的壓力才這樣操作的。

理論上我們有無限算力的話，我們應該直接拿最好的資料讓它去訓練。包括Llama、GPT，它們訓練時也都參考了類似的思路，先在短序列上大規模訓練，之後再在長序列或者更好的資料上去做微調，提升最終的模型生成質量。

具體而言，我們可以看一下三個階段究竟是怎麼操作的。

第一個階段還比較簡單，現在有許多文生圖的模型，即便不自己訓練，也可能找一些不錯的文生圖模型，它其實就是我的基準，我從起點開始去構造我的整個方案。我們改造Stable Diffusion，可以快速把這件事完成。