融合ChatGPT+DALL·E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

AIGC動態2年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：融合ChatGPT+DALL·E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決
關鍵字：模型,圖像,數據,圖片,能力
文章來源：量子位
內容字數：5415字

內容摘要：

允中發自凹非寺量子位 | 公眾號 QbitAI在開源社區中把GPT-4+Dall·E 3能?整合起來的模型該有多強？
香港中文大學終身教授賈佳亞團隊提出多模態模型Mini-Gemini：
更高清圖像的精確理解、更高質量的訓練數據、更強的圖像解析推理能力，還能結合圖像推理和生成，堪稱王炸。
Mini-Gemini還提供了2B小杯到34B的超大杯，最強模型在多個指標上相比谷歌的Gemini Pro甚至GPT-4V都不遑多讓。
目前，Mini-Gemini從代碼、模型到數據已全部開源，登上了PaperWithCode熱榜。
Mini-Gemini線上Demo也已發布，超會玩梗，一起來體驗下！
接近商業閉源模型水平Mini-Gemini Demo放出后受到廣大網友關注，一番“品嘗”后，他們認為Mini-Gemini跟商業模型差不了多少。
目前，絕大多數多模態模型僅支持低分辨率圖像輸入和文字輸出，而在實際場景中，許多任務都需要對高清圖像進行解析，并用圖像的形式進行展現。
如下圖所示，Mini-Gemini不僅能夠根據圖片對做面包的過程進行手把手教學，也能夠準確將不同電腦品種根據圖片中的各種參

原文鏈接：融合ChatGPT+DALL·E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決