標簽：音頻

任意論文一鍵變播客，谷歌正式發布Illuminate，它能重構研究者的學習方式嗎？

機器之心報道編輯：陳陳、蛋醬像聽書一樣「讀」論文。?先來聽一段英文播客，內容是不是很熟悉？是的，這倆人就是在聊那篇《Attention is All You Need》。在...

閱讀原文

AIGC動態

1年前 (2024)

GPT-4結合SAM2：免訓練多模態分割的全新解決方案！| 已開源

北京航空航天大學李紅羽投稿凹非寺量子位 | 公眾號 QbitAI免訓練多模態分割領域有了新突破！中科院信工所、北航、合工大、美團等單位聯合提出了一種名為A...

閱讀原文

AIGC動態

1年前 (2024)

騰訊版GPT-4o開源平替方案：VITA

生成式AI時代最火AI芯片峰會下月來襲！9月6-7日，智猩猩發起主辦的2024全球AI芯片峰會將在北京盛大舉行。峰會設有開幕式、數據中心AI芯片專場、邊緣/端側AI芯...

閱讀原文

AIGC動態

1年前 (2024)

別等GPT-4o啦，國產「開源版」GPT-4o 來了！支持全模態、無障礙交流

夕小瑤科技說原創作者 | 謝年年騰訊最近的多模態進展有點子“一路高歌”，先是騰訊元寶升級了一波多模態能力，就差把GPT-4o從榜一拉下來了。最近，又搞了一個...

閱讀原文

AIGC動態

1年前 (2024)

浙江大學發布全能多模態大模型OmniBind，刷榜13大benchmark

夕小瑤科技說原創作者 | Richard在人工智能快速發展的今天，多模態大模型成為了研究的熱點。近日，浙江大學的研究團隊在這一領域取得了重大突破，發布了名為...

閱讀原文

AIGC動態

1年前 (2024)

沒有等來OpenAI開源GPT-4o，等來了開源版VITA

機器之心報道機器之心編輯部開源領域又傳來好消息。大語言模型 (LLM) 經歷了重大的演變，最近，我們也目睹了多模態大語言模型 (MLLM) 的蓬勃發展，它們表現...

閱讀原文

AIGC動態

1年前 (2024)

奧特曼「草莓」模型跳票，OpenAI凌晨大新聞，把網友整懵了

機器之心報道編輯：澤南、杜偉GPT-5 大模型？不要太著急。昨晚，很多人徹夜未眠，都在等待 OpenAI 的「大新聞」。因為在本周三，OpenAI 創始人、CEO 山姆?...

閱讀原文

AIGC動態

1年前 (2024)

ChatGPT會不受控制克隆你的聲音！OpenAI公開紅隊測試報告

衡宇發自凹非寺量子位 | 公眾號 QbitAIGPT-4o的怪癖暴露了，還是被官方公開的！你和它語音電話，它會悄悄學你說話的聲音，效果堪稱“克隆”，生動逼真到一毛...

閱讀原文

AIGC動態

1年前 (2024)

無比順滑！告別TTS！賈揚清領銜的Lepton AI推出實時語音交互

夕小瑤科技說分享作者 | 谷雨龍澤事到如今，各種AI助手滿天飛，語音功能也不是什么稀罕物了。 “明天早上會不會下雨？” “導航去火車站” “幫我預訂××餐廳的桌...

閱讀原文

AIGC動態

1年前 (2024)

AI也會「刷抖音」！清華領銜發布短視頻全模態理解新模型 | ICML 2024

新智元報道編輯：LRST 好困【新智元導讀】音視頻大語言模型在處理視頻內容時，往往未能充分發揮語音的作用。video-SALMONN模型通過三部分創新：音視頻編碼和...

閱讀原文

AIGC動態

1年前 (2024)

OpenAI發起價格戰邀請，百萬輸入tokens只需一塊錢！

夕小瑤科技說原創作者 | 海野 Claude 3.5上線后，很多人紛紛取消訂閱OpenAI的ChatGPT Plus，轉而去投入Claude的懷抱。 OpenAI坐不住了。再不拿點新東西出來...

閱讀原文

AIGC動態

1年前 (2024)

8 人團隊的開源多模態：Moshi，效果堪比 GPT-4o，合成數據立功

文章轉載自「機器之心」。最近，一個對標 GPT-4o 的開源實時語音多模態模型火了。這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機構 ——Kyutai，模型...

閱讀原文

AIGC動態

1年前 (2024)

阿里音頻生成大模型一次發倆還開源！50種語言快速理解+5種語言語音生成，帶情感的那種

FunAudioLLM團隊投稿量子位 | 公眾號 QbitAIOpenAI遲遲不上線GPT-4o語音助手，其它音頻生成大模型成果倒是一波接著一波發布，關鍵還是開源的。剛剛，阿里通...

閱讀原文

AIGC動態

1年前 (2024)

成立半年就敢踢館 OpenAI ，首個開源模型不輸 GPT-4o，LeCun 、PyTorch 之父齊聲叫好！

整理 | 華衛想象一下，一個 AI 模型可以表達 70 多種情緒，以不同的風格說話，甚至令人信服地模仿口音。并且，它能夠同時處理兩個音頻流，同時聽和說。這不...

閱讀原文

AIGC動態

1年前 (2024)

8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了

機器之心報道機器之心編輯部最近，一個對標 GPT-4o 的開源實時語音多模態模型火了。這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機構 ——Kyutai，...

閱讀原文

AIGC動態

1年前 (2024)

123 4…6