12月5日-6日,由智東西與智猩猩聯合主辦的2024中國生成式AI大會(上海站)在上海圓滿舉行。在大會首日的主會場上,趣丸科技副總裁賈朔以《探索音樂創作的技術平權——AI音樂的創新實踐》為題發表了演講。賈朔認為,2024年是AIGC音樂爆發元年,人工智能的創新發展大大降低了音樂創作門檻,音樂創作賽道終于迎來了“創作平權”時刻,普通用戶也能用低門檻的方式體驗音樂創作的樂趣。音樂生成之所以是被LLM浪潮覆蓋的最后一種模態,成為漏網之魚,源自于音樂的特殊性——時間序列性、多層次結構、情感一致性、評估主觀模糊性。目前Diffusion in Transformer(DiT)成為大多數閉源的主流選擇,而國產AI音樂的歌聲自然度更是突破人耳識別閾值,效果比肩美國頭部模型。賈朔分享了人與音樂的AI交互形式的變化,從文生音樂,到三鍵成曲,再到哼唱成曲。今年7月份,天譜樂全球首發多模態音樂生成模型,支持視頻成曲和圖片成曲功能,一鍵根據用戶視頻或圖片生成一首完整的音樂。此外,賈朔在現場首次預告天譜樂的新功能——MidiRender,功能類比于一個精準、可控音樂版的Control Net,專業的創作用戶可以輸入自己的音樂構想,讓天譜樂AI根據這個原創音樂片段填充歌詞、完成編曲。以下為賈朔的演講實錄:012024年是AI音樂爆發元年,迎來“創作平權”時刻2024年是一個重要的年份,音樂創作賽道終于迎來“創作平權”時刻。文字、圖片、視頻這些模態的創作平權問題早在移動互聯網時代已經被解決。一個普通人想要創作這些,都可以輕松實現。因為移動互聯網時代的一個主線任務,就是不斷降低創作門檻,實現全民UGC內容創作。但是,音樂屬于移動互聯網時代的一個漏網之魚。普通人想要用簡單的操作在手機上完成低門檻音樂創作,是比較難的。到了2024年,AIGC到來的時代,這個任務終于要被完成了。這里整理了各個模態成熟的時間線。可以會看到這一波生成式人工智能的浪潮。有幾個標志性的,比如說文本生成,代表像ChatGPT率先發布3.5版本,把文本生成,特別是基于transformer的交互對話把熱度給點燃了。緊隨其后是文生圖也在2023年前后成熟,普通人輸入一段簡單的文字咒語,就可以輸出非常專業的圖片效果,甚至是近似照片的圖像。文生視頻是在2023年底到2024年年初,Sora的出現讓文生視頻率先進入AIGC成熟的臨界點。反倒是音樂在這幾個主流模態里面,它是最后一個成熟的。02天然特殊性讓音樂生成需要克服四大難題為什么音樂總是最后一個?它有哪些特殊性?我們天譜樂團隊深耕這個行業很長時間,對音樂生成有一些理解,主要反映在四個方面。首先,它需要很強的“時間序列性”。一首音樂三分鐘,它的時間順序要遵循音樂上的規律跟結構。如果結構錯了,人可以很容易識別出來它不自然,它不是人類生成的。其次,是“多層次結構”。大家如果平時聽音樂比較多的話,會留意到一首音樂的編曲里面,會有非常多的空間編排。比如說人聲可能是靠前或靠后,同時你的左側可能有一個架子鼓,右側有一個大提琴或小提琴,這些會帶來非常多的空間結構信息,在生成領域它同樣需要解決和克服。第三點,情感一致性。眾所周知,音樂是用來統一情緒的一種工具。同時,如果一個音樂作品80%的部分非常符合邏輯,但是唯獨有一兩個音稍微有點瑕疵,達不到人類對這個音樂的效果預期。人類就會瞬間識別出來。如果同樣的事情發生在文生圖,一些小瑕疵可能不會產生特別嚴重的問題。第四點,評價主觀模糊性。大家做大模型、GC生成,經常做一些跑分題庫去量化、評價一個模型效果好壞?但是在音樂領域,它的評價非常主觀。你問一個人這個音樂好不好,他會回答喜歡或者不喜歡。但是,對一個音樂的喜好評價,并沒有太多建設性的反饋價值。同時,這個評價有模糊性、主觀性,更多取決于個人的審美偏好,而非音樂質量高低。03國產AI音樂歌聲自然度比肩美國頭部模型在當下這個時間節點,做一個音樂生成大模型或產品的選擇空間并不大。音樂生成不像其它模態有成熟的開源方案。事實上,無論在國內還是國外,基本都是閉源項目主導,要么從預訓練環節開始自己訓練,要么直接套殼。我們看到,在技術路線選擇上,今年有一個比較明顯的趨勢,Diffusion in Transformer(DiT)成為大多數閉源的主流選擇。包括Suno CEO在一個公開分享中也提到,Transformer更適合處理時序結構上的問題,而Diffusion更適合處理一些高維空間問題。當然,盡管大家的技術路線選擇一致,但是具體的架構設計還是存在非常大的差異。例如造車必須有四個輪子,但是輪子應該怎么設計大家各有不同。今年除了搞技術的對音樂感興趣,音樂人也很關心。我們跟一些音樂人溝通,現在音樂生成效果這么好,什么問題導致他們無法使用這些AI工具。他們回答兩個點,第一點,人聲的自然度問題。舉個例子,在3D建模有一個很有名的效應,叫做恐怖谷效應。即一個東西已經有九分像,就差10%,但是人類可以很快識別出來,并且對它產生厭惡和反抗情緒。為了攻克這個問題,天譜樂團隊從模型結構上調整了幾十版,實驗上百次,最后我們認為拿出了一個比較有競爭力的結果。我們拿天譜樂最新的版本跟音樂人交流,音樂人給了很高的評價。他們說AI音樂這個賽道仿佛到了圍棋遇到AlphaGo的時刻。同時,我們也找了音樂高校學生,他們具備專業的音樂訓練,可以比普通人給出更專業的評價。我們做了一個盲測,用相同的Prompt測試了50條輸出音樂,讓音樂高校學生盲測給天譜樂和國內外產品打分,最終結果是天譜樂AI最新2.2版本的中文人聲唱詞已經達到一個新的天花板水平,歌聲自然度更是突破人耳識別閾值,效果比肩美國頭部模型。04首創圖頻生曲功能革新AI音樂交互形式文生音樂是最適合的交互方式嗎?很多人覺得“搖歌”這個事情就像開盲盒,覺得“音樂效果不錯,但是跟我有什么關系呢?針對這個命題,天譜樂團隊做了一系列的探索,我們在2023年推出“三鍵成曲”模式,用戶輸入三個音即可擴寫形成一首完整歌曲。2024年天譜樂進一步推出“哼唱成曲”,很多人在洗澡的時候會隨心哼唱一段,同樣可以擴寫成歌曲。當然,這些可能都還不夠簡單,怎樣才能讓音樂創作更簡單呢?類似移動互聯網時期的手機攝像頭就是最平權的輸入媒介,人人都能拿起手機拍一拍照。我們在想,如果用戶旅游中拍了一張照片、一段視頻,天譜樂是否可以幫他生成一個完整的作品?帶著這個想法,天譜樂首發了全球首個多模態音樂生成模型。這個模型可以理解畫面的內容、情緒,從而自動匹配最合適的歌曲。05AI如何為人類創造更大價值2024年整個AI音樂賽道的門檻終于被徹底打下來了。圖片創作、視頻創作、音樂創作確實到了人類歷史最簡單的一個時代。前幾周我跟一個湖畔大學的老師交流,他提到一個新的問題:天譜樂這個AI音樂工具能幫助人類作曲家作出更好的音樂嗎?當時我思考了很久,我們做這個模型目的是什么?只是讓更多人可以輕松創作出60分的音樂嗎?還是可以創造更大的價值,輔助人類不斷突破創意天花板,創作出更好的內容呢?我們發現市面上普遍的音樂生成大模型,除了人聲不好之外,很重要的問題是現在的AI不聽話,不按照作曲家、音樂人的意圖創作,AI過多地發揮。所以基于這個思考,我們拿出了一個新功能,今天是第一次正式地對外亮相,天譜樂下一個版本會發布的一個叫MidiRender的功能。大概介紹一下這個功能。在文生圖領域有一個非常重要的發展節點,就是Control Net的出現,讓文生圖變得非常可控。AI音樂也需要類似的一個東西。第一步是核心的創意部分,我們還是希望人類作曲家來主導,用樂器、編曲軟件都好,先去彈一段基礎的動機旋律。第二步,在以前人類作曲家從創作一段動機旋律到完成一首完整的創作,往往要花幾周甚至幾個月的時間。而現在,天譜樂AI完全有能力來加速完成這個動作。大家聽DEMO可以感受到,最終出來的音樂跟最初人類作曲家的動機旋律是完全匹配的。這也是我們認為AI大模型作為工具,可以為藝術家服務的一個事情,而不是去搶奪創作主導權。翻開人類歷史,人類可能真正擅長的有兩件事情。第一件事情是犯重復的錯誤,比如周期性的謎之自信,覺得可以創造出比自己更聰明的東西。第二件事情是人類非常擅長制造工具。人類每一次制造一個新的工具,都在不斷拓展自己能力的外延,所以今天人類才徹底成為這個星球的霸主。所以我認為技術最終還是要服務于人,技術的出現不是為了取代人類工作,而是幫助人類創造更美麗的東西。以上是賈朔演講內容的完整整理。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
暫無評論...