標簽:編碼器
一張照片生成視頻,張嘴、點頭、喜怒哀樂,都可以打字控制
機器之心報道作者:陳萍、張倩視頻 PS 可以靈活到什么程度?最近,微軟的一項研究提供了答案。在這項研究中,你只要給 AI 一張照片,它就能生成照片中人物的...
智能的本質就是壓縮?馬毅團隊5年心血提出「白盒」Transformer, 打開LLM黑盒!
新智元報道編輯:潤 桃子【新智元導讀】來自UC伯克利,港大等機構的研究人員,開創性地提出了一種「白盒」Transformer結構——CRATE。他們通過將數據從高維度分...
「GPT-4只是在壓縮數據」,馬毅團隊造出白盒Transformer,可解釋的大模型要來了嗎?
機器之心報道編輯:PandaAGI 到底離我們還有多遠?在 ChatGPT 引發的新一輪 AI 爆發之后,一部分研究者指出,大語言模型具備通過觀察進行因果歸納的能力,但...
北大視頻大模型新SOTA,搞笑抖音視頻AI秒懂笑點|開源
夢晨 發自 凹非寺量子位 | 公眾號 QbitAIAI能理解搞笑視頻笑點在哪里了。AI回答:這個視頻之所以搞笑,在于一個小寶寶正坐在床上努力讀書,但他顯然還不會真...
北大&騰訊打造多模態15邊形戰士!語言作“紐帶”,拳打腳踢各模態,超越Imagebind
AI4Happiness投稿量子位 | 公眾號 QbitAI北大聯合騰訊打造了一個多模態15邊形戰士!以語言為中心,“拳打腳踢”視頻、音頻、深度、紅外理解等各模態。具體來說...
兩天star量破千:OpenAI的Whisper被蒸餾后,語音識別數倍加速
機器之心報道編輯:張倩模型小了,幻覺還減輕了。前段時間,「霉霉大秀中文」的視頻在各個社交媒體走紅,隨后又出現了「郭德綱大秀英語」等類似視頻。這些視...
視覺霸主SAM和文圖霸主CLIP強強聯合!蘋果聯合UIUC,發布統一視覺模型SAM-CLIP,或掀起多模態新浪潮
夕小瑤科技說 原創作者 | ZenMoore相信大家對 SAM[1] 并不陌生,它是 Meta 此前發布的 Segment Anything Model (分割一切模型)。一經發布便火遍全網震驚世界...
“我有一個大膽的想法”?Meta AI 新技術讓你的思維圖像一覽無余!
夕小瑤科技說 原創作者 | 付奶茶大家之前是否想象過未來的技術進步會帶來讀腦器,計算界面是否有可能越過觸摸屏、鍵盤進入我們思維內部讀取我們腦袋中所想。...
讀心術!AI技術解鎖大腦思維,你想什么它都知道
點擊上方藍字關注我們圖|匡萃彪文|匡萃彪“ Meta公司最新的AI系統,利用磁腦電圖技術實時解讀大腦中的視覺信息,為醫學和人工智能領域帶來革命性的突破。然...
谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強
機器之心報道編輯:杜偉、陳萍在多模態(視覺語言)大模型領域,拼參數贏性能的同時,追求參數更小、速度更快、性能更強是另一條研究路徑。在大模型時代,視...
谷歌重磅發布 PaLI-3,四兩撥千斤!
夕小瑤科技說 原創作者 | 智商掉了一地、ZenMoore視覺語言模型(VLM)的參數規模已經擴展到數百億,甚至數千億,這使得其性能持續提升。然而,小規模模型仍然...
只需1%參數,效果超越ControlNet,新AI繪畫控制大師來襲
西風 發自 凹非寺量子位 | 公眾號 QbitAI“新·AI繪畫細節控制大師”ControlNet-XS來啦!敲重點的是參數只要原始ControlNet的1%。就能做到蛋糕口味隨意切換:△左...
免費科研利器!Meta祭出Nougat,PDF格式轉換,公式表格精準識別,掃描版文檔也可以
新智元報道編輯:桃子【新智元導讀】最新科研神器Nougat,可以把PDF中公示、文本提取出來。做研究的童鞋們簡直要狂喜!近來,Meta AI研究人員推出一款OCR神器...