多模態(tài)大模型,阿里通義千問能和GPT-4V掰手腕了
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:多模態(tài)大模型,阿里通義千問能和GPT-4V掰手腕了
關(guān)鍵字:模型,能力,阿里,圖像,視覺
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7009字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:澤南、蛋醬通義千問的圖像推理能力,最近有了大幅提升。
2024 年,大模型領(lǐng)域要卷什么?
如果沒有思路的話,不妨看看各家大廠都在押注什么方向。
最近一段時(shí)間,先是 OpenAI 推出 GPT-4V,讓大模型擁有了前所未有的圖像語義理解能力。谷歌隨后跟上,發(fā)布的 Gemini 成為了業(yè)界第一個(gè)原生的多模態(tài)大模型,它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。很明顯,新的方向就是多模態(tài)。繼 GPT-4 在語言方向的里程碑式突破之后,業(yè)界普遍認(rèn)為「視覺」是下一個(gè)爆發(fā)的賽道。畢竟人類的五感之中有 80% 是視覺信息,未來的大模型也應(yīng)該充分利用更多種類的感官,以此探索實(shí)現(xiàn) AGI 的路徑。
不只有 GPT-4V、Gemini,在這個(gè)充滿潛力的方向上,國(guó)內(nèi)的技術(shù)力量同樣值得關(guān)注:最近的一個(gè)重要發(fā)布就來自阿里,他們新升級(jí)的通義千問視覺語言大模型 Qwen-VL-Max 在上周正式發(fā)布,在多個(gè)測(cè)評(píng)基準(zhǔn)上取得了好成績(jī),并實(shí)現(xiàn)了強(qiáng)大的圖像理解的能力。
我們還記得 Gemini 發(fā)布之后,谷歌馬上被曝出給 Demo 加速。這讓人們對(duì)新技術(shù)產(chǎn)生了一些質(zhì)
原文鏈接:多模態(tài)大模型,阿里通義千問能和GPT-4V掰手腕了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)