標簽：視覺

讓現實消失的不是 Sora，而是明日的 Vision Pro

更沉浸更個性更孤獨OpenAI Sora 模型的誕生，讓不少人大呼「現實已經不存在了」，因為它能讓文字描述快速變成乍一看可以假亂真的視頻。然而，真正可以讓現...

閱讀原文

AIGC動態

2年前 (2024)

讓視覺語言模型搞空間推理，谷歌又整新活了

機器之心報道機器之心編輯部視覺語言模型雖然強大，但缺乏空間推理能力，最近 Google 的新論文說它的 SpatialVLM 可以做，看看他們是怎么做的。視覺語言模型...

閱讀原文

AIGC動態

2年前 (2024)

OpenAI發布強大的視頻生成工具，讓整個行業哀鴻遍野

點擊上方藍字關注我們“OpenAI發布了最新產品Sora，能憑文本生成60秒生動視頻。Sora融合語言與圖像生成技術，實現了連貫的場景轉換，包括細節如頭發、服裝，以...

閱讀原文

AIGC動態

2年前 (2024)

OpenAI創始大神卡帕西再度離職！回歸一年很邊緣，內訌中不站隊不表態

金磊發自凹非寺量子位 | 公眾號 QbitAIOpenAI創始研究員Andrej Karpathy，離職了——又一次。 Andrej Karpathy本人在X上發布了這一消息：我昨天離開了OpenAI...

閱讀原文

AIGC動態

2年前 (2024)

計算機視覺算法，難以落地無人機航拍應用，why？

（謹以此文，獻給那些涉及 AI 需求的產品經理，領導，以及某些不稱職的算法工程師們）今天來說點真話，不吐不快。在ChatGPT 大模型到來之前，人工智能發展...

閱讀原文

AIGC動態

2年前 (2024)

iPhone動嘴10秒P圖！UCSB蘋果全華人團隊發布多模態MGIE，官宣開源人人可玩

新智元報道編輯：桃子【新智元導讀】最近，來自UCSB和蘋果的華人團隊提出了MGIE，通過多模態模型引導圖像精準編輯，可以10秒完成P圖。幾天前，庫克在蘋果電...

閱讀原文

AIGC動態

2年前 (2024)

罕見！蘋果開源圖片編輯神器MGIE，要上iPhone?

機器之心報道編輯：蛋醬、陳萍拍張照片，輸入文字指令，手機就開始自動修圖？這一神奇功能，來自蘋果剛剛開源的圖片編輯神器「MGIE」。把背景中的人移除在...

閱讀原文

AIGC動態

2年前 (2024)

CV大神何愷明正在招收博士后和實習生！

夕小瑤科技說原創作者 | 謝年年想必大家都知道，CV大神何愷明將在24年加入MIT EECS（電子工程和計算機科學系），而就在近日，何愷明在個人主頁上官宣招收研...

閱讀原文

AIGC動態

2年前 (2024)

年齡兩歲，教齡一年半：嬰兒AI訓練師登上Science

機器之心報道編輯：婁佳琪、張倩只用 61 個小時的數據：人們終于證明了，利用當代 AI 工具，實現「真正的語言學習」是可行的。在公開采訪中，圖靈獎得主 Ya...

閱讀原文

AIGC動態

2年前 (2024)

趕超Gemini Pro，提升推理、OCR能力的LLaVA-1.6太強了

機器之心報道機器之心編輯部去年 4 月，威斯康星大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發布了 LLaVA（Large Language and Vision Assistant）...

閱讀原文

AIGC動態

2年前 (2024)

純文本模型訓出「視覺」表征！MIT最新研究：語言模型用代碼就能作畫

新智元報道編輯：LRS 【新智元導讀】不用圖像，只用文本就能訓練出視覺概念表征？用寫代碼的方式讀懂畫面，形狀、物體、場景都能懂！只會「看書」的大語言模...

閱讀原文

AIGC動態

2年前 (2024)

ICLR 2024｜把圖像視為外語，快手、北大多模態大模型媲美DALLE-3

機器之心報道機器之心編輯部動態視覺分詞統一圖文表示，快手與北大合作提出基座模型 LaVIT 刷榜多模態理解與生成任務。當前的大型語言模型如 GPT、LLaMA 等...

閱讀原文

AIGC動態

2年前 (2024)

從20億數據中學習物理世界，基于Transformer的通用世界模型成功挑戰視頻生成

允中發自凹非寺量子位 | 公眾號 QbitAI建立會做視頻的世界模型，也能通過Transformer來實現了！來自清華和極佳科技的研究人員聯手，推出了全新的視頻生成...

閱讀原文

AIGC動態

2年前 (2024)

年輕人的第一個多模態大模型：1080Ti輕松運行，已開源在線可玩

Vary-toy團隊投稿量子位 | 公眾號 QbitAI一款名為Vary-toy的“年輕人的第一個多模態大模型”來了！模型大小不到2B，消費級顯卡可訓練，GTX1080ti 8G的老顯卡...

閱讀原文

AIGC動態

2年前 (2024)

中文性能反超VLM頂流GPT-4V，阿里Qwen-VL超大杯限免！看圖秒寫編程視覺難題一眼辨出

新智元報道編輯：編輯部【新智元導讀】多模態大模型將是AI下一個爆點。最近，通義千問VLM模型換新升級，超大杯性能堪比GPT-4V。最最重要的是，還能限時免費...

閱讀原文

AIGC動態

2年前 (2024)

1…10 111213 14…20