標簽:文本
ICLR 2024 Oral:長視頻中噪聲關聯學習,單卡訓練僅需1天
機器之心專欄 作者:林義杰在 2024 世界經濟論壇的一次會談中,圖靈獎得主 Yann LeCun 提出用來處理視頻的模型應該學會在抽象的表征空間中進行預測,而不是具...
ChatGPT新增語音朗讀功能,可直接用來配音了
點擊上方藍字關注我們“OpenAI最新發布的ChatGPT語音朗讀功能,這項功能不僅讓用戶通過語音交流,還能將文本轉化為清晰流暢的語音,為自媒體創作者帶來了便捷...
7B模型超越GPT4-V!港科大等發布「圖推理問答」數據集GITQA:視覺圖可提升推理能力
新智元報道編輯:LRS 好困 【新智元導讀】研究人員證實了Visual Graph在圖推理中的作用,以及其可以和文本模態相互增強。圖神經網絡(GNNs)擅長利用圖的結構...
復旦等發布AnyGPT:任意模態輸入輸出,圖像、音樂、文本、語音都支持
機器之心報道 機器之心編輯部最近,OpenAI 的視頻生成模型 Sora 爆火,生成式 AI 模型在多模態方面的能力再次引起廣泛關注。 現實世界本質上是多模態的,生物...
60行代碼,從頭開始構建GPT!最全實踐指南來了
新智元報道編輯:桃子 【新智元導讀】GPT早已成為大模型時代的基礎。國外一位開發者發布了一篇實踐指南,僅用60行代碼構建GPT。60行代碼,從頭開始構建GPT? ...
微軟37頁論文逆向工程Sora,得到了哪些結論?
機器之心報道 機器之心編輯部一篇論文回顧 Sora 文生視頻技術的背景、技術和應用。 追趕 Sora,成為了很多科技公司當下階段的新目標。研究者們好奇的是:Sora...
蘇劍林:“閉門造車”之多模態模型方案淺談
智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI Infra專場和AIGC應用專場;分會場將進行具身...
一覽大模型長文本能力
智猩猩和智東西發起主辦的2024中國生成式AI大會將于4月18-19日在北京舉辦。主會場將進行開幕式、大模型專場、AI Infra專場和AIGC應用專場;分會場將進行具身...
復旦發布多模態大模型AnyGPT,文圖語樂樣樣行
夕小瑤科技說 原創作者 | 芒果 引言:多模態語言模型新篇章在人工智能領域,多模態語言模型的發展正迎來新的篇章。傳統的大型語言模型(LLM)在理解和生成人...
谷歌AI視頻再出王炸!全能通用視覺編碼器VideoPrism,性能刷新30項SOTA
新智元報道編輯:桃子 【新智元導讀】谷歌團隊推出「通用視覺編碼器」VideoPrism,在3600萬高質量視頻字幕對和5.82億個視頻剪輯的數據集上完成了訓練,性能刷...
谷歌VideoPoet負責人蔣路跳槽TikTok!對標Sora,AI視頻模型大戰在即
新智元報道編輯:編輯部 【新智元導讀】谷歌Research Lead,負責VideoPoet項目的蔣路,即將加入TikTok,負責視頻生成AI的開發。谷歌VideoPoet項目Research Le...
爆火Sora背后的技術,一文綜述擴散模型的最新發展方向
機器之心專欄 機器之心編輯部為了使機器具有人類的想象力,深度生成模型取得了重大進展。這些模型能創造逼真的樣本,尤其是擴散模型,在多個領域表現出色。擴...
今日Arxiv最熱NLP大模型論文:浙江大學發布統一的幻覺檢測框架UNIHD
夕小瑤科技說 原創作者 | 芒果、Python引言:多模態大語言模型的幻覺問題及其重要性在人工智能領域,多模態大語言模型(MLLMs)已經取得了顯著的進步,它們在...
Gemini一眼識破Sora視頻是AI生成?百萬token上下文能力碾壓GPT-4
新智元報道編輯:潤 好困 【新智元導讀】Gemini 1.5的真實水平到底怎么樣,從谷歌那里獲得試用資格的大佬們,給大家進行了一波極限測試。讓我們看看谷歌最新...
離開OpenAI的大神卡帕西「開課了」:新項目日增千星,還是熟悉的min代碼風
魚羊 發自 凹非寺量子位 | 公眾號 QbitAI大神Karpathy從OpenAI離職,原本揚言要大休一周。 但轉眼,新項目就已上線GitHub,日增上千星的那種。 還是熟悉的卡...