財聯社8月3日訊(編輯 牛占林)美東時間周三,Meta發布了一款開源人工智能(AI)工具AudioCraft(直譯為音頻技藝),該工具可以幫助用戶根據文本提示創作音樂和音頻。
(相關資料圖)
Meta表示,這款人工智能工具將AudioGen、EnCodec和MusicGen三種模型或技術融為一爐,可用文本內容生成高質量、逼真的音頻和音樂。
Meta在官網介紹稱,MusicGen接受過Meta擁有的和特別授權的音樂訓練,可以從文本提示生成音樂,而AudioGen接受過公共音效訓練,可從文本提示生成音頻,比如模擬狗叫或腳步聲;再加上EnCodec編解碼器的改進版本,用戶可以更高效率地生成更高質量的音樂。
在6月初,Meta推出了名為MusicGen的開源人工智能模型,這是一種深度學習語言模型,可以根據文本提示生成音樂。
Meta的EnCodec是一個基于深度學習的音頻編解碼器,由人工智能驅動,可以在音頻質量沒有損失的前提下,將音頻壓縮到比MP3格式還要小10倍的程度。
AudioGen則是一個來自Meta和耶路撒冷希伯來大學的研究團隊的人工智能模型,可以通過輸入文本來生成音頻,亦可以擴展現有音頻。AudioGen可以區分不同的聲音對象,并在聲學上將它們分開。
Meta還演示了MusicGen和AudioGen工作的流程圖,并表示將讓這些模型開源,讓研究人員和從業人員可以用自己的數據集訓練適合自己的模型,并幫助推進人工智能生成音頻和音樂領域的發展。
與其他音樂模型相比,AudioCraft系列模型能夠生成長期一致的高質量音樂和音頻,還簡化了音頻生成模型的整體設計,使得該工具簡單易用。
Meta相信它的模型可以引領新一波歌曲潮流,就像合成器改變音樂一樣。“我們認為MusicGen可以變成一種新型的樂器,就像最初出現的合成器一樣。”
當然,Meta也承認創作復雜而又優秀的音樂還是比較困難的,因此它選擇將AudioCraft開源,以使用于訓練它的數據多樣化。
今年早些時候,谷歌也發布了名為MusicLM的音樂生成模型,并于5月向上月向所有用戶開放。除此之外,目前較為常見的音樂模型還有Riffusion、Mousai和Noise2Music等。
關鍵詞:
河北6市消防救援力量緊急馳援涿州
記者從河北省消防救援總隊獲悉,8...
隆基綠能業績快報:上半年凈利潤同比增長41.63%
(記者孔子元)隆基綠能發布業績快...
健康飲食從看懂配料表開始,跟著長輕學習營養食療健康知識
健康飲食從看懂配料表開始,跟著長...
先惠技術:約4342.04萬股限售股8月11日解禁
先惠技術(SH688155,收盤價:元)...
突破游戲行業天花板,“技術外溢”成趨勢
文|螳螂觀察作者|余一受游戲版號發...
華康生物醫學(08622.HK)委任周靖文為獨立非執行董事
格隆匯8月2日丨華康生物醫學(08622...
古脊椎所等研究證實古鳥類葉食性的起源
近日,《自然-通訊》(NatureCommu...
《京津冀林業和草原行政執法協作備忘錄》簽署
7月26日,首次京津冀林業和草原行...