趣丸科技賈朔：探索音樂創作的技術平權——AI音樂的創新實踐

12月5日-6日，由智東西與智猩猩聯合主辦的2024中國生成式AI大會（上海站）在上海圓滿舉行。在大會首日的主會場上，趣丸科技副總裁賈朔以《探索音樂創作的技術平權——AI音樂的創新實踐》為題發表了演講。賈朔認為，2024年是AIGC音樂爆發元年，人工智能的創新發展大大降低了音樂創作門檻，音樂創作賽道終于迎來了“創作平權”時刻，普通用戶也能用低門檻的方式體驗音樂創作的樂趣。音樂生成之所以是被LLM浪潮覆蓋的最后一種模態，成為漏網之魚，源自于音樂的特殊性——時間序列性、多層次結構、情感一致性、評估主觀模糊性。目前Diffusion in Transformer（DiT）成為大多數閉源的主流選擇，而國產AI音樂的歌聲自然度更是突破人耳識別閾值，效果比肩美國頭部模型。賈朔分享了人與音樂的AI交互形式的變化，從文生音樂，到三鍵成曲，再到哼唱成曲。今年7月份，天譜樂全球首發多模態音樂生成模型，支持視頻成曲和圖片成曲功能，一鍵根據用戶視頻或圖片生成一首完整的音樂。此外，賈朔在現場首次預告天譜樂的新功能——MidiRender，功能類比于一個精準、可控音樂版的Control Net，專業的創作用戶可以輸入自己的音樂構想，讓天譜樂AI根據這個原創音樂片段填充歌詞、完成編曲。以下為賈朔的演講實錄：012024年是AI音樂爆發元年，迎來“創作平權”時刻2024年是一個重要的年份，音樂創作賽道終于迎來“創作平權”時刻。文字、圖片、視頻這些模態的創作平權問題早在移動互聯網時代已經被解決。一個普通人想要創作這些，都可以輕松實現。因為移動互聯網時代的一個主線任務，就是不斷降低創作門檻，實現全民UGC內容創作。但是，音樂屬于移動互聯網時代的一個漏網之魚。普通人想要用簡單的操作在手機上完成低門檻音樂創作，是比較難的。到了2024年，AIGC到來的時代，這個任務終于要被完成了。這里整理了各個模態成熟的時間線。可以會看到這一波生成式人工智能的浪潮。有幾個標志性的，比如說文本生成，代表像ChatGPT率先發布3.5版本，把文本生成，特別是基于transformer的交互對話把熱度給點燃了。緊隨其后是文生圖也在2023年前后成熟，普通人輸入一段簡單的文字咒語，就可以輸出非常專業的圖片效果，甚至是近似照片的圖像。文生視頻是在2023年底到2024年年初，Sora的出現讓文生視頻率先進入AIGC成熟的臨界點。反倒是音樂在這幾個主流模態里面，它是最后一個成熟的。02天然特殊性讓音樂生成需要克服四大難題為什么音樂總是最后一個？它有哪些特殊性？我們天譜樂團隊深耕這個行業很長時間，對音樂生成有一些理解，主要反映在四個方面。首先，它需要很強的“時間序列性”。一首音樂三分鐘，它的時間順序要遵循音樂上的規律跟結構。如果結構錯了，人可以很容易識別出來它不自然，它不是人類生成的。其次，是“多層次結構”。大家如果平時聽音樂比較多的話，會留意到一首音樂的編曲里面，會有非常多的空間編排。比如說人聲可能是靠前或靠后，同時你的左側可能有一個架子鼓，右側有一個大提琴或小提琴，這些會帶來非常多的空間結構信息，在生成領域它同樣需要解決和克服。第三點，情感一致性。眾所周知，音樂是用來統一情緒的一種工具。同時，如果一個音樂作品80%的部分非常符合邏輯，但是唯獨有一兩個音稍微有點瑕疵，達不到人類對這個音樂的效果預期。人類就會瞬間識別出來。如果同樣的事情發生在文生圖，一些小瑕疵可能不會產生特別嚴重的問題。第四點，評價主觀模糊性。大家做大模型、GC生成，經常做一些跑分題庫去量化、評價一個模型效果好壞？但是在音樂領域，它的評價非常主觀。你問一個人這個音樂好不好，他會回答喜歡或者不喜歡。但是，對一個音樂的喜好評價，并沒有太多建設性的反饋價值。同時，這個評價有模糊性、主觀性，更多取決于個人的審美偏好，而非音樂質量高低。03國產AI音樂歌聲自然度比肩美國頭部模型在當下這個時間節點，做一個音樂生成大模型或產品的選擇空間并不大。音樂生成不像其它模態有成熟的開源方案。事實上，無論在國內還是國外，基本都是閉源項目主導，要么從預訓練環節開始自己訓練，要么直接套殼。我們看到，在技術路線選擇上，今年有一個比較明顯的趨勢，Diffusion in Transformer（DiT）成為大多數閉源的主流選擇。包括Suno CEO在一個公開分享中也提到，Transformer更適合處理時序結構上的問題，而Diffusion更適合處理一些高維空間問題。當然，盡管大家的技術路線選擇一致，但是具體的架構設計還是存在非常大的差異。例如造車必須有四個輪子，但是輪子應該怎么設計大家各有不同。今年除了搞技術的對音樂感興趣，音樂人也很關心。我們跟一些音樂人溝通，現在音樂生成效果這么好，什么問題導致他們無法使用這些AI工具。他們回答兩個點，第一點，人聲的自然度問題。舉個例子，在3D建模有一個很有名的效應，叫做恐怖谷效應。即一個東西已經有九分像，就差10%，但是人類可以很快識別出來，并且對它產生厭惡和反抗情緒。為了攻克這個問題，天譜樂團隊從模型結構上調整了幾十版，實驗上百次，最后我們認為拿出了一個比較有競爭力的結果。我們拿天譜樂最新的版本跟音樂人交流，音樂人給了很高的評價。他們說AI音樂這個賽道仿佛到了圍棋遇到AlphaGo的時刻。同時，我們也找了音樂高校學生，他們具備專業的音樂訓練，可以比普通人給出更專業的評價。我們做了一個盲測，用相同的Prompt測試了50條輸出音樂，讓音樂高校學生盲測給天譜樂和國內外產品打分，最終結果是天譜樂AI最新2.2版本的中文人聲唱詞已經達到一個新的天花板水平，歌聲自然度更是突破人耳識別閾值，效果比肩美國頭部模型。04首創圖頻生曲功能革新AI音樂交互形式文生音樂是最適合的交互方式嗎？很多人覺得“搖歌”這個事情就像開盲盒，覺得“音樂效果不錯，但是跟我有什么關系呢？針對這個命題，天譜樂團隊做了一系列的探索，我們在2023年推出“三鍵成曲”模式，用戶輸入三個音即可擴寫形成一首完整歌曲。2024年天譜樂進一步推出“哼唱成曲”，很多人在洗澡的時候會隨心哼唱一段，同樣可以擴寫成歌曲。當然，這些可能都還不夠簡單，怎樣才能讓音樂創作更簡單呢？類似移動互聯網時期的手機攝像頭就是最平權的輸入媒介，人人都能拿起手機拍一拍照。我們在想，如果用戶旅游中拍了一張照片、一段視頻，天譜樂是否可以幫他生成一個完整的作品？帶著這個想法，天譜樂首發了全球首個多模態音樂生成模型。這個模型可以理解畫面的內容、情緒，從而自動匹配最合適的歌曲。05AI如何為人類創造更大價值2024年整個AI音樂賽道的門檻終于被徹底打下來了。圖片創作、視頻創作、音樂創作確實到了人類歷史最簡單的一個時代。前幾周我跟一個湖畔大學的老師交流，他提到一個新的問題：天譜樂這個AI音樂工具能幫助人類作曲家作出更好的音樂嗎？當時我思考了很久，我們做這個模型目的是什么？只是讓更多人可以輕松創作出60分的音樂嗎？還是可以創造更大的價值，輔助人類不斷突破創意天花板，創作出更好的內容呢？我們發現市面上普遍的音樂生成大模型，除了人聲不好之外，很重要的問題是現在的AI不聽話，不按照作曲家、音樂人的意圖創作，AI過多地發揮。所以基于這個思考，我們拿出了一個新功能，今天是第一次正式地對外亮相，天譜樂下一個版本會發布的一個叫MidiRender的功能。大概介紹一下這個功能。在文生圖領域有一個非常重要的發展節點，就是Control Net的出現，讓文生圖變得非常可控。AI音樂也需要類似的一個東西。第一步是核心的創意部分，我們還是希望人類作曲家來主導，用樂器、編曲軟件都好，先去彈一段基礎的動機旋律。第二步，在以前人類作曲家從創作一段動機旋律到完成一首完整的創作，往往要花幾周甚至幾個月的時間。而現在，天譜樂AI完全有能力來加速完成這個動作。大家聽DEMO可以感受到，最終出來的音樂跟最初人類作曲家的動機旋律是完全匹配的。這也是我們認為AI大模型作為工具，可以為藝術家服務的一個事情，而不是去搶奪創作主導權。翻開人類歷史，人類可能真正擅長的有兩件事情。第一件事情是犯重復的錯誤，比如周期性的謎之自信，覺得可以創造出比自己更聰明的東西。第二件事情是人類非常擅長制造工具。人類每一次制造一個新的工具，都在不斷拓展自己能力的外延，所以今天人類才徹底成為這個星球的霸主。所以我認為技術最終還是要服務于人，技術的出現不是為了取代人類工作，而是幫助人類創造更美麗的東西。以上是賈朔演講內容的完整整理。

閱讀原文