生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合
關(guān)鍵字:圖像,模型,數(shù)據(jù),圖片,能力
文章來源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):4774字
內(nèi)容摘要:
更高清圖像的精確理解、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更強(qiáng)的圖像解析推理能力,還能結(jié)合圖像推理和生成,香港中文大學(xué)終身教授賈佳亞團(tuán)隊(duì)提出的這款多模態(tài)模型Mini-Gemini堪稱絕絕子,相當(dāng)于開源社區(qū)的GPT4+DALLE3的王炸組合!
Mini-Gemini還提供了2B小杯到34B的超大杯,最強(qiáng)模型在多個(gè)指標(biāo)上相比Google Gemini Pro甚至GPT-4V都不遑多讓。目前,Mini-Gemini從代碼、模型、到數(shù)據(jù)已全部開源,登上了PaperWithCode熱榜。
Mini-Gemini線上Demo也已發(fā)布,超會(huì)玩梗,一起來體驗(yàn)下!
Mini-Gemini Demo放出后受到廣大網(wǎng)友關(guān)注,一番“品嘗”后,他們認(rèn)為Mini-Gemini跟商業(yè)模型差不了多少!目前,絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出,而在實(shí)際場(chǎng)景中,許多任務(wù)都需要對(duì)高清圖像進(jìn)行解析,并用圖像的形式進(jìn)行展現(xiàn)。
如上圖所示,Mini-Gemini不僅能夠根據(jù)圖片對(duì)做面包的過程進(jìn)行手把手教學(xué),也能夠準(zhǔn)確將不同電腦品種根據(jù)圖片中的各種參數(shù)進(jìn)行對(duì)比。網(wǎng)友表示:媽媽再也不用擔(dān)心我的生活了。
更重要的是,Mini-Gemi
原文鏈接:生圖超級(jí)外掛!賈佳亞團(tuán)隊(duì)提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合
聯(lián)系作者
文章來源:AI科技評(píng)論
作者微信:aitechtalk
作者簡(jiǎn)介:雷峰網(wǎng)旗下AI新媒體。聚焦AI前沿研究,關(guān)注AI工程落地。