標(biāo)簽:視覺(jué)
開(kāi)源多模態(tài)SOTA再易主,19B模型比肩GPT-4v,16G顯存就能跑
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI開(kāi)源多模態(tài)SOTA模型再易主! Hugging Face開(kāi)發(fā)者大使剛剛把王冠交給了CogVLM2,來(lái)自大模型創(chuàng)業(yè)公司智譜AI。 CogVLM2...
時(shí)隔一年Falcon回歸!110億參數(shù)5.5萬(wàn)億token,性能超越Llama 3
新智元報(bào)道編輯:庸庸喬楊 【新智元導(dǎo)讀】 5月14日,開(kāi)源的大語(yǔ)言模型Falcon 2發(fā)布,性能超越Llama 3,消息登上了Hacker News熱榜第一。「獵鷹」歸來(lái),開(kāi)源宇...
HuggingFace教你怎樣做出SOTA視覺(jué)模型
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI前有OpenAI的GPT-4o,后有谷歌的系列王炸,先進(jìn)的多模態(tài)大模型接連炸場(chǎng)。 其他從業(yè)者在震撼之余,也再次開(kāi)始思考怎...
李飛飛揭秘創(chuàng)業(yè)方向“空間智能”:視覺(jué)化為洞察,看見(jiàn)成為理解,理解導(dǎo)致行動(dòng)
夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI斯坦福李飛飛創(chuàng)業(yè)后,首次揭秘新概念“空間智能”。 這不僅是她的創(chuàng)業(yè)方向,也是指引她的“北極星”,被她認(rèn)為是“解決人...
OpenAI 重磅發(fā)布 GPT-4o :見(jiàn)證《Her》的誕生!
北京時(shí)間 5 月 14 日凌晨,備受期待的 OpenAI 春季更新發(fā)布會(huì)上,CTO Mira Murati 宣布發(fā)布新的模型迭代版本——GPT-4o,o 代表「omnimodel」(全能模型),原...
GPT-4o 屠龍式震撼!多模態(tài)、實(shí)時(shí)交互、全員免費(fèi)可用,絲滑語(yǔ)音交互的 ChatGPT 這把贏(yíng)麻了
作者:李寶珠 & 十九 編輯:三羊 OpenAI 發(fā)布 GPT-4o,ChatGPT 基于GPT-4o 實(shí)現(xiàn)了語(yǔ)音交互,并在文本與視覺(jué)能力上有顯著提升。從 5 月初爆出將在 9 日發(fā)...
GPT-4o深夜炸場(chǎng)!AI實(shí)時(shí)視頻通話(huà)絲滑如人類(lèi),Plus功能免費(fèi)可用,奧特曼:《她》來(lái)了
夢(mèng)晨 克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI不開(kāi)玩笑,電影《她》真的來(lái)了。 OpenAI最新旗艦大模型GPT-4o,不僅免費(fèi)可用,能力更是橫跨聽(tīng)、看、說(shuō),絲滑...
跟著開(kāi)源的InternVL,學(xué)習(xí)如何做自己的GPT-4V
隨著人工智能生成內(nèi)容(AIGC)的快速發(fā)展,多模態(tài)大型語(yǔ)言模型(MLLM)在理解和生成結(jié)合視覺(jué)與語(yǔ)言的信息方面展現(xiàn)出巨大潛力。然而,現(xiàn)有的開(kāi)源MLLM與商業(yè)模...
14 項(xiàng)任務(wù)測(cè)下來(lái),GPT4V、Gemini等多模態(tài)大模型竟都沒(méi)什么視覺(jué)感知能力?
AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
HuggingFace燒錢(qián)做了一大批實(shí)驗(yàn),揭示多模態(tài)大模型哪些trick真正有效
夕小瑤科技說(shuō) 原創(chuàng)作者 | 謝年年構(gòu)建多模態(tài)大模型時(shí)有很多有效的trick,如采用交叉注意力機(jī)制融合圖像信息到語(yǔ)言模型中,或直接將圖像隱藏狀態(tài)序列與文本嵌入...
AI教母李飛飛首次創(chuàng)業(yè)!成立“空間智能”公司,已完成種子輪
明敏 克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIAI教母李飛飛,創(chuàng)業(yè)了! 最新消息,斯坦福大學(xué)教授李飛飛正在建立一家AI公司,已完成種子輪融資。 公司方向定...
參數(shù)量不到10億的OctopusV3,如何媲美GPT-4V和GPT-4?
AIxiv專(zhuān)欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,機(jī)器之心AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
文章轉(zhuǎn)載自公眾號(hào):量子位,本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。 視覺(jué)語(yǔ)言模型屢屢出現(xiàn)新突破,但ViT仍是圖像編碼器的首選網(wǎng)絡(luò)結(jié)構(gòu)。 字節(jié)提出新基...
字節(jié)發(fā)布視覺(jué)基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI視覺(jué)語(yǔ)言模型屢屢出現(xiàn)新突破,但ViT仍是圖像編碼器的首選網(wǎng)絡(luò)結(jié)構(gòu)。 字節(jié)提出新基礎(chǔ)模型——ViTamin,專(zhuān)為視覺(jué)語(yǔ)言時(shí)代...
西安交大發(fā)表魯棒視覺(jué)問(wèn)答綜述,揭秘AI視覺(jué)問(wèn)答的“超強(qiáng)大腦”丨IEEE TPAMI
2024年2月,西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室與陜西省大數(shù)據(jù)知識(shí)工程實(shí)驗(yàn)室(跨媒體知識(shí)融合與工程應(yīng)用研究所)師生,在人工智能頂級(jí)期刊IEEE...