AI 音樂，會不會誕生下一個「抖音」？-今日必看

AI 音樂，會不會誕生下一個「抖音」？

來源：音樂大燴菜釋出時間：2024-04-26 18:33

作者 | 連冉

編輯 | 鄭玄

AI 音樂最近火到發燙。

首先是三月下旬，美國 AI 初創公司 Suno 釋出 V3 音樂生成模型，該模型能夠在幾秒鐘內根據輸入的提示詞生成兩分鐘的高質量音訊，驚豔的效果讓行業相信 AI 音樂已經迎來了自己的「ChatGPT 時刻」。

緊接著，一個月後，國內的崑崙萬維宣佈推出「天工SkyMusic」音樂生成大模型，其評分超越 Suno V3，成為 AI 音樂生成模型最新 SOTA（State of the Art，指當前技術在本領域技術指標全球第一）。

這引起了極客公園的好奇。客觀來說，今天中美在 AI 大模型的基礎研發上還存在著一定差距。即使細分領域的垂直模型，如斯自信地宣稱全球領先的團隊並不多見。

此外，音樂作為多模態領域中的重要組成部分，有著不菲的產業價值。全球錄製音樂市場一年的總收入近 300 億美元，而相關的演唱會、BGM、KTV 和線上的短影片、K 歌平臺等更是每年數千億美元的市場規模。AI 的介入必然帶來生產側和消費側的全面革新，其潛在影響不會亞於數字音樂和流媒體的興起。

因此在 4 月 17 日「天工SkyMusic」正式上線後，我們第一時間下載並體驗了這款軟體。以下是我們的體驗感慨感染，以及對 AI 音樂未來發展的一點想法。

「天工SkyMusic」：

一段歌詞，幾秒生成

三首不同風格的歌曲

從產品設計角度來看，「天工SkyMusic」與「Suno V3」在多個方面相似，但在一些關鍵細節上仍是有明顯的不同。

使用「天工SkyMusic」生成音樂，需要輸入歌名、歌詞，同時可以透過新增段落資訊，比如「主歌」、「副歌」、「前奏」等進行微調——這些都與 Suno 的操作相似。

上為 Suno 介面，下為天工SkyMusic 介面

兩者最大的不同在於：Suno 要求使用者輸入歌曲風格，如流行、爵士或說唱；而「天工SkyMusic」則允許選擇參考曲目，可以來自其他使用者上傳過的歌曲，也支援自己上傳。

這個功能非常有用。一方面，相比於泛泛的「風格」，「曲目」提供了更精確的定向，這更有助於生成自己想要的音樂。

從實際使用體驗來看，如果缺少專業樂理訓練，普通使用者很難精準描述歌曲風格——想象一下，該用什麼語言描述《夜的第七章》？因此，像「天工SkyMusic」這樣能夠在瀏覽並傾聽原音樂時找到與自己歌詞契合的風格，這比使用自然語言描述能夠更好地表達音樂需求，也更契合普通使用者的音樂創作的場景。

輸入歌詞、歌名和參考曲目以後，就可以直接生成音樂。「天工SkyMusic」會一次性生成三首風格、唱腔略有不同的歌曲——這是一個很實用的產品設計。不論是「Suno V3」仍是「天工SkyMusic」，儘管今天 AI 音樂雖然已經能生成出一定水準的音樂，但穩定性還有待提升，三首裡往往只有一首還算不錯，而想要得到更好的音樂，除了需要做好歌詞分段等微調，更需要反覆嘗試。

輸入歌名「夏天的風」以及第一句「夏天的風我永遠記得」，由「AI 寫詞」完成創作的歌曲｜影片來源：極客公園

除了寫好歌詞生成歌曲以外，「天工SkyMusic」也支援 AI 寫詞。如上所示，上面這首《夏天的風》就是我們用「AI 寫詞」和「生成歌曲」完成創作的歌曲。這首歌的旋律還不錯，但由於沒有給歌詞分段，整首歌聽下來缺少了一點音調變化。

我嘗試在蘇軾的《水調歌頭》里加上分段，這次生成的歌曲就有了明顯的情感變化，尤其是唱到「人有悲歡離合，月有陰晴圓缺」這樣的副歌高潮段落時，感染力十足。

《水調歌頭》Demo

如果生成了滿意的歌曲，使用者還可以選擇「投稿」釋出到「天工SkyMusic」平臺，以及支援其他社交媒體平臺。在首頁，我聽了一些點贊比較多的熱門生成音樂，其中不乏一些質量上乘的作品，乍一聽幾乎無法辨別其為 AI 生成——當然仔細分辨的話，仍是能在一些細節處理上看到與專業作品的差距。

事實上，許多專業音樂人對「天工SkyMusic」也有不低的評價。例如，B 站 UP 主 @Metalion，一名職業音樂人，他嘗試了用自己的舊歌詞生成，並試聽了主頁其他人釋出的熱門 AI 歌曲，其中有好幾首都給出了「還不錯」、「像是一首完整的歌曲」這種不低的評價。

B 站 UP 主@Metalion 釋出的影片 | 來源：B 站截圖

整體體驗下來，我感覺「天工SkyMusic」的音樂生成能力至少在音樂初學者以上，但生成速度遠不是人類可比，而且大量的音樂作品中不乏一些相對完整甚至區域性驚豔的優秀作品。當然，目前 AI 音樂模型的能力還無法實現整首歌曲從頭到尾都保持穩定品質，也無法像真正的音樂人那樣細緻打磨作品。

然而，就目前的技術水平而言，「天工SkyMusic」已是一款能為使用者帶來實際價值的優秀產品。透過降低音樂創作門檻，如「模仿曲目」、「一次生成三首」和「選擇釋出」這些細節設計，大模型已經可以讓普通人也能夠輕鬆享受創造音樂、分享音樂的快樂，人人都能以歌明志。

而隨著大模型繼續迭代，產品和功能繼續豐富，未來一兩年，AI 音樂還有更多的可能性。

AI 音樂，會走向何方

談完對產品的體驗，最後我們來聊聊基於這次體驗，我們可以看到的一些對 AI 音樂行業未來發展的觀察。

在「天工 3.0」和「天工SkyMusic」的媒體溝通會上，崑崙萬維董事長兼 CEO 方漢在接受媒體採訪時說，他認為 AI 音樂創作工具未來會有兩個分化：面向 PGC 和麵向小白的 UGC 使用者。UGC 基本上是一鍵生成，利便為主；PGC 就相對複雜，「天工SkyMusic」也會在後續加入曲調調整等更專業的音樂工具。

「天工SkyMusic」這樣的產品，今天對 UGC 和 PGC 而言都有一定的價值，並在可預見的未來，技術會向兩個不同的方向持續迭代。

對於普通 UGC 使用者，AI 音樂生成主要提供的仍是娛樂價值。音樂創作是情感表達的一種形式，即使是非專業人士也有創作的需求。以往，技術門檻如詞曲創作和音樂理論是主要障礙，而 AI 技術的引入，相當於為他們提供了一個強大的「音樂創作外骨骼」，使得任何人都能創作出心中所想的音樂並透過社交媒體進行分享。

當然，當前 AI 音樂平臺操作依然複雜，使用者需手動進行歌詞分段和微調，且生成的音質不夠不亂。而隨著技術的持續迭代，這些問題相信很快就會得到解決。正如微博和抖音在文章和影片創作領域所引發的革命一樣，一個去中心化的音樂創作平臺可能將徹底改變人們的音樂創作和消費方式。

對於專業人士的 PGC 使用者而言，儘管今天的 AI 音樂工具尚不能完全替代人類創作者，但已經開始成為一個極具價值的輔助工具。

首先是創意激發。目前 AI 音樂大模型創作穩定性還不夠，但是速度快，對於陷入瓶頸的創作者，AI 可以成為一個很好的創意啟發工具。方漢也列舉了一個技術團隊與專業創作者溝通後的場景，他們認為「天工SkyMusic」有一個特別有價值的地方：就是跨區域風格靈感激發。例如，中國音樂人通常對非洲和拉美音樂不甚瞭解，但透過使用「天工SkyMusic」，他們可以輕鬆探索並融合這些異域文化的曲調，從而在創作中獲得新的靈感。

還有一個很有價值的場景在於小樣。在很多商務創作的溝通場合，尤其是一些音樂人和非音樂人的溝通（比如做廣告 BGM 時，編曲和廣告主溝通），很大的麻煩在於如何對齊雙方對作品方向的理解。而有了 AI 之後，可以很容易地生成一個相對精準地小樣兒，這能節省大量的溝通時間以及降低後續返工的風險。

從實用性的角度來看，今天需要用到音樂的行業非常多，比較典型的就是短影片、影視和遊戲製作，而傳統音樂創作不僅成本高昂還費時費力，把 AI 引入到這些行業的音樂生產流程，任何效率的提升都有可能帶來巨大的產業價值。

在內容創作領域，誰能最快適應技術變革，誰就可能獲得最大的利益，這一點在短影片領域已經有過驗證。隨著手機攝像頭、5G、以及影片剪輯 APP 的崛起，影片拍攝製作門檻不斷降低，最終伴隨著抖音的全球走紅，短影片賽道全面崛起，拉開一場新時代的大幕。

而今天，在 AI 音樂乃至所有 AIGC 平臺上，歷史可能再次重演。