誰是中國版Sora？國產文生影片大模型加速跑-今日必看

誰是中國版Sora？國產文生影片大模型加速跑

來源：會笑的青豆釋出時間：2024-05-10 16:02

“面對Sora帶來的挑戰，不妨讓子彈再飛一會兒”。兩個多月前，OpenAI又一記深水炸彈，以文生影片大模型Sora引爆全球，當時談及國內外文生影片大模型的差距，伽利略資本合夥人鄭譞做出了這樣一句評價。

兩個多月後，“預言”應驗。先是生數科技聯合清華大學釋出了影片大模型Vidu，一度被外界形容為中國首個Sora級影片大模型，近日，亦有媒體報道稱，智譜AI也正研發對標Sora的國產文生影片模型，最快年內釋出。

隨著企業競相入局，國內文生影片大模型明顯進入加速階段。但就像鄭譞說的，Sora的出現並非技術上的突破，而在工程方面，國產大模型的差距其實並沒有多遠，“從本質上講，場景或許是比工程突破更值得思考的一件事”。

Sora之後

近日，有媒體報道稱，智譜AI正在研發對標Sora的高質量文生影片模型，預計最快年內釋出。對此，北京商報記者聯絡了智譜AI，對方表示該訊息非官方信源訊息，沒有其他資訊可以提供。

公開資料顯示，智譜AI由清華大學計算機系技術成果轉化而來，也是國內最早研發大模型的企業之一。今年1月，智譜AI釋出新一代基座大模型GLM-4，智譜AI CEO張鵬曾介紹稱，GLM-4的整體效能相比上一代大幅提升，逼近GPT-4。

在此之前，國產文生影片大模型已經掀起過一波浪潮。4月27日的2024中關村論壇年會上，清華大學聯合生數科技正式釋出中國首個長時長、高一致性、高動態性影片大模型Vidu，引發熱議。

據介紹，Vidu是自Sora釋出之後全球率先取得重大突破的影片大模型，效能全面對標國際頂尖水平。

“Vidu是全棧自主創新的最新成果，在多個維度上實現了技術突破，包括可以模擬真實物理世界、具有想象力、可以理解多鏡頭語言而不再是簡單的鏡頭推拉、可以一鍵生成長達16秒的影片、人物場景時間保持高度一致性、可以理解中國元素”。當時，清華大學教授、生數科技首席科學家朱軍介紹稱。

對於外界最關心的，Vidu和Sora的對比，朱軍也在現場做出了展示，比如Sora在影片生成過程中丟掉了“旋轉”這一關鍵詞，但Vidu則能較好地抓住這一內容，實現影片視角的絲滑“旋轉”。

不過也有分析認為，Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距，對此，有業內人士對北京商報記者提到，Vidu的架構本身足夠支援更長時間的影片生成，生數科技也介紹稱，Vidu正在加速迭代提升中。

據悉，Vidu原創的Diffusion與Transformer融合的架構U-ViT，提出於2022年9月，早於Sora採用的DiT架構，是全球首個Diffusion與Transformer融合的架構。

值得一提的是，智譜AI與生數科技均出自“清華一脈”，而“清華系”AI企業，也已成為這一輪大模型浪潮絕對的中堅力量，光年之外、月之暗面、百川智慧、面壁智慧等均有清華學子的影子。

智譜AI的“清華底色”可能最濃，比如常被外界提及的清華計算機系教授唐傑就是智譜AI的創始人之一。而在2021年，時任智源研究院學術副院長的唐傑，便作為“悟道”模型技術委員會主任，帶隊先後釋出了我國首個超大規模智慧模型“悟道1.0”和“悟道2.0”。

而今，這支源於清華的力量也在不斷“繁衍”。有媒體引用業內人士的分析稱，清華系大模型公司的格局是以智譜AI為中心，佈局人工智慧上下游。今年3月，生數科技宣佈完成新一輪數億元融資，智譜AI就是跟投者之一。

2024中關村輪年年會期間，智譜AI總裁王紹蘭還曾對媒體提到，生數科技在文生影片模型方面有比較突出的能力，是智譜已經投資的十多家AI大模型產業相關創業公司之一，“目前許多企業都擁有行業領先的技術實力，這是一種鮮明的技術導向”。

產品化才是關鍵

事實上，自Sora釋出之後，國內文生影片領域便已開始升溫。例如Sora釋出的2月，清華大學便公佈了一項文生影片專利。同月，中國首部文生影片AI動畫片《千秋詩頌》播出。而在Vidu釋出的第二天，國內首個音影片多媒體大模型萬興“天幕”正式公測。

據Gartner研究預測，到2030年，90%的數字內容都將是AI生成。預計2032年，全球AIGC市場規模將由2022年的108億美元增加至1181億美元。

經濟學家、新金融專家餘豐慧對北京商報記者分析稱，文生影片的成功構建意味著AI模型能夠處理更高維度、更復雜的資料，並進行創造性表達，這表明模型正朝著理解和創造世界的不同層面演進，這與AGI所追求的認知和決議計劃能力更加接近。

“Sora這樣的文生影片技術一旦成熟，理論上有可能顛覆傳媒業、影視製作、遊戲開發、虛擬現實、廣告創意、教育等多個行業。它能夠在短時間內根據使用者需求自動生成高質量影片內容，大大降低創作成本，提高生產效率”，餘豐慧補充稱。

在接受北京商報記者採訪時，鄭譞提到，文生影片可以簡單類比成分鏡指令碼，利用文字資訊生成關鍵幀，以幀與幀的畫面聯合形成連續影片。在這個過程中，更多屬於工程上的創新，而非技術層面的顛覆性突破，這也意味著國內外大模型的差距不會太長，整體時間差距可以保持在半年之內。

也是因此，比起工程上的突破，鄭譞更關注的其實是應用場景。據他觀察，AI短片在行業內的“單子”還非常小，更像是實驗性質的嘗試，比之成熟的商業製作“大片”還有很大差距，“基本可以忽略不計”。

影響AI影片商業化的因素，也可以從技術和市場兩方面理解。技術層面，鄭譞提到，還涉及大模型的穩定輸出，比如是否能夠保證鏡頭切換時主體的統一性。

即便這一工程問題得到解決，在真正的製作層面，礙於算力的巨大消耗以及訓練成本等因素，AI影片的成本並不一定會比人工更低，這也進一步關係到廣泛應用的時候，存在著一個滲透率問題。

“我們目前主動接觸的文生影片專案還比較少，主要仍是覺得場景沒有那麼核心，也不一定能在這個低谷穿越週期”，鄭譞說。

更缺的是推理算力

企業競相入局文生影片大模型，也引發出了另一個關鍵問題——算力。早在Sora釋出後不久，360集團創始人周鴻禕就曾公開提到，Sora的技術路線如果被開源，國內將能很快趕上，但在追趕Sora時，算力有可能成為門檻。

中信證券曾簡單估算，一個60幀的影片（約6—8秒）需要約6萬個Patches，如果去噪步數是20的話，相當於要生成120萬個Tokens。同時考慮到擴散模型在實際使用時往往需要多次生成的特點，實際計算量會遠超120萬個Tokens。

天使投資人、資深人工智慧專家郭濤對北京商報記者分析稱，大模型的訓練需要處理大量的資料和複雜的計算。如果沒有足夠的算力，訓練這樣的模型將非常困難。其次，目前全球的算力資源是有限的，而且大部分集中在一些大型科技公司手中，這就使得其他公司或者研究機構在獲取足夠的算力資源方面面臨挑戰。

為應對算力挑戰，餘豐慧提到，中國算力產業正處於快速發展階段，政府大力推動新基建，包括資料中心、5G網路、雲計算平臺等基礎架構的建設。多家上市公司如百度、騰訊、浪潮資訊、中科曙光等在AI算力領域均有佈局，並取得顯著成果。

但人們在談大模型算力時，通常會更多地將目光聚焦在訓練算力，而鄭譞認為，真正的算力缺口其實不一定在訓練側，反而是在推理側。“現在之所以外界感慨感染不到，主要原因在於還沒能出現真正的爆款應用，一旦這個應用出現了，推理算力缺口就會異常明顯”，鄭譞說。

不久前，月之暗面的Kimi智慧助手走紅成為“小爆款”，因使用人數激增，Kimi App和小程式一度出現無法正常使用的情況。當時中信建投層釋出研報稱，隨著Kimi使用者數持續提升，已經出現短暫算力支援不足的情況，考慮後續模型訓練和推理需求，預期算力需求會進一步提升，帶動算力需求落地。

“推理算力很可能會是創投圈的下一個機會”，鄭譞總結說。

北京商報記者楊月涵

Sora之後

據介紹，Vidu是自Sora釋出之後全球率先取得重大突破的影片大模型，效能全面對標國際頂尖水平。

據悉，Vidu原創的Diffusion與Transformer融合的架構U-ViT，提出於2022年9月，早於Sora採用的DiT架構，是全球首個Diffusion與Transformer融合的架構。

產品化才是關鍵

據Gartner研究預測，到2030年，90%的數字內容都將是AI生成。預計2032年，全球AIGC市場規模將由2022年的108億美元增加至1181億美元。

“我們目前主動接觸的文生影片專案還比較少，主要仍是覺得場景沒有那麼核心，也不一定能在這個低谷穿越週期”，鄭譞說。

更缺的是推理算力

“推理算力很可能會是創投圈的下一個機會”，鄭譞總結說。

北京商報記者楊月涵

Sora之後

據介紹，Vidu是自Sora釋出之後全球率先取得重大突破的影片大模型，效能全面對標國際頂尖水平。

據悉，Vidu原創的Diffusion與Transformer融合的架構U-ViT，提出於2022年9月，早於Sora採用的DiT架構，是全球首個Diffusion與Transformer融合的架構。

產品化才是關鍵

據Gartner研究預測，到2030年，90%的數字內容都將是AI生成。預計2032年，全球AIGC市場規模將由2022年的108億美元增加至1181億美元。

“我們目前主動接觸的文生影片專案還比較少，主要仍是覺得場景沒有那麼核心，也不一定能在這個低谷穿越週期”，鄭譞說。

更缺的是推理算力

“推理算力很可能會是創投圈的下一個機會”，鄭譞總結說。

北京商報記者楊月涵

Sora之後

據介紹，Vidu是自Sora釋出之後全球率先取得重大突破的影片大模型，效能全面對標國際頂尖水平。

據悉，Vidu原創的Diffusion與Transformer融合的架構U-ViT，提出於2022年9月，早於Sora採用的DiT架構，是全球首個Diffusion與Transformer融合的架構。

產品化才是關鍵

據Gartner研究預測，到2030年，90%的數字內容都將是AI生成。預計2032年，全球AIGC市場規模將由2022年的108億美元增加至1181億美元。

“我們目前主動接觸的文生影片專案還比較少，主要仍是覺得場景沒有那麼核心，也不一定能在這個低谷穿越週期”，鄭譞說。

更缺的是推理算力

“推理算力很可能會是創投圈的下一個機會”，鄭譞總結說。

北京商報記者楊月涵

Sora之後

據介紹，Vidu是自Sora釋出之後全球率先取得重大突破的影片大模型，效能全面對標國際頂尖水平。

據悉，Vidu原創的Diffusion與Transformer融合的架構U-ViT，提出於2022年9月，早於Sora採用的DiT架構，是全球首個Diffusion與Transformer融合的架構。

產品化才是關鍵

據Gartner研究預測，到2030年，90%的數字內容都將是AI生成。預計2032年，全球AIGC市場規模將由2022年的108億美元增加至1181億美元。

“我們目前主動接觸的文生影片專案還比較少，主要仍是覺得場景沒有那麼核心，也不一定能在這個低谷穿越週期”，鄭譞說。

更缺的是推理算力

“推理算力很可能會是創投圈的下一個機會”，鄭譞總結說。

北京商報記者楊月涵

上一篇：房貸申請了提...