標簽:音頻

任意論文一鍵變播客,谷歌正式發布Illuminate,它能重構研究者的學習方式嗎?

機器之心報道 編輯:陳陳、蛋醬像聽書一樣「讀」論文。?先來聽一段英文播客,內容是不是很熟悉?是的,這倆人就是在聊那篇《Attention is All You Need》。在...
閱讀原文

GPT-4結合SAM2:免訓練多模態分割的全新解決方案!| 已開源

北京航空航天大學 李紅羽 投稿 凹非寺量子位 | 公眾號 QbitAI免訓練多模態分割領域有了新突破! 中科院信工所、北航、合工大、美團等單位聯合提出了一種名為A...
閱讀原文

騰訊版GPT-4o開源平替方案:VITA

生成式AI時代最火AI芯片峰會下月來襲!9月6-7日,智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯...
閱讀原文

別等GPT-4o啦,國產「開源版」GPT-4o 來了!支持全模態、無障礙交流

夕小瑤科技說 原創作者 | 謝年年騰訊最近的多模態進展有點子“一路高歌”,先是騰訊元寶升級了一波多模態能力,就差把GPT-4o從榜一拉下來了。 最近,又搞了一個...
閱讀原文

浙江大學發布全能多模態大模型OmniBind,刷榜13大benchmark

夕小瑤科技說 原創作者 | Richard在人工智能快速發展的今天,多模態大模型成為了研究的熱點。近日,浙江大學的研究團隊在這一領域取得了重大突破,發布了名為...
閱讀原文

沒有等來OpenAI開源GPT-4o,等來了開源版VITA

機器之心報道 機器之心編輯部開源領域又傳來好消息。大語言模型 (LLM) 經歷了重大的演變,最近,我們也目睹了多模態大語言模型 (MLLM) 的蓬勃發展,它們表現...
閱讀原文

奧特曼「草莓」模型跳票,OpenAI凌晨大新聞,把網友整懵了

機器之心報道 編輯:澤南、杜偉GPT-5 大模型?不要太著急。昨晚,很多人徹夜未眠,都在等待 OpenAI 的「大新聞」。 因為在本周三,OpenAI 創始人、CEO 山姆?...
閱讀原文

ChatGPT會不受控制克隆你的聲音!OpenAI公開紅隊測試報告

衡宇 發自 凹非寺量子位 | 公眾號 QbitAIGPT-4o的怪癖暴露了,還是被官方公開的! 你和它語音電話,它會悄悄學你說話的聲音,效果堪稱“克隆”,生動逼真到一毛...
閱讀原文

無比順滑!告別TTS!賈揚清領銜的Lepton AI推出實時語音交互

夕小瑤科技說 分享作者 | 谷雨龍澤事到如今,各種AI助手滿天飛,語音功能也不是什么稀罕物了。 “明天早上會不會下雨?” “導航去火車站” “幫我預訂××餐廳的桌...
閱讀原文

AI也會「刷抖音」!清華領銜發布短視頻全模態理解新模型 | ICML 2024

新智元報道編輯:LRST 好困 【新智元導讀】音視頻大語言模型在處理視頻內容時,往往未能充分發揮語音的作用。video-SALMONN模型通過三部分創新:音視頻編碼和...
閱讀原文

OpenAI發起價格戰邀請,百萬輸入tokens只需一塊錢!

夕小瑤科技說 原創作者 | 海野 Claude 3.5上線后,很多人紛紛取消訂閱OpenAI的ChatGPT Plus,轉而去投入Claude的懷抱。 OpenAI坐不住了。再不拿點新東西出來...
閱讀原文

8 人團隊的開源多模態:Moshi,效果堪比 GPT-4o,合成數據立功

文章轉載自「機器之心」。最近,一個對標 GPT-4o 的開源實時語音多模態模型火了。這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機構 ——Kyutai,模型...
閱讀原文

阿里音頻生成大模型一次發倆還開源!50種語言快速理解+5種語言語音生成,帶情感的那種

FunAudioLLM團隊 投稿量子位 | 公眾號 QbitAIOpenAI遲遲不上線GPT-4o語音助手,其它音頻生成大模型成果倒是一波接著一波發布,關鍵還是開源的。 剛剛,阿里通...
閱讀原文

成立半年就敢踢館 OpenAI ,首個開源模型不輸 GPT-4o,LeCun 、PyTorch 之父齊聲叫好!

整理 | 華衛 想象一下,一個 AI 模型可以表達 70 多種情緒,以不同的風格說話,甚至令人信服地模仿口音。并且,它能夠同時處理兩個音頻流,同時聽和說。這不...
閱讀原文

8人小團隊單挑OpenAI,半年仿出GPT-4o,還開源了

機器之心報道 機器之心編輯部最近,一個對標 GPT-4o 的開源實時語音多模態模型火了。 這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機構 ——Kyutai,...
閱讀原文
12346