AIGC動態歡迎閱讀
原標題:多模態大模型,阿里通義千問能和GPT-4V掰手腕了
關鍵字:模型,能力,阿里,圖像,視覺
文章來源:機器之心
內容字數:7009字
內容摘要:
機器之心報道
編輯:澤南、蛋醬通義千問的圖像推理能力,最近有了大幅提升。
2024 年,大模型領域要卷什么?
如果沒有思路的話,不妨看看各家大廠都在押注什么方向。
最近一段時間,先是 OpenAI 推出 GPT-4V,讓大模型擁有了前所未有的圖像語義理解能力。谷歌隨后跟上,發布的 Gemini 成為了業界第一個原生的多模態大模型,它可以泛化并無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。很明顯,新的方向就是多模態。繼 GPT-4 在語言方向的里程碑式突破之后,業界普遍認為「視覺」是下一個爆發的賽道。畢竟人類的五感之中有 80% 是視覺信息,未來的大模型也應該充分利用更多種類的感官,以此探索實現 AGI 的路徑。
不只有 GPT-4V、Gemini,在這個充滿潛力的方向上,國內的技術力量同樣值得關注:最近的一個重要發布就來自阿里,他們新升級的通義千問視覺語言大模型 Qwen-VL-Max 在上周正式發布,在多個測評基準上取得了好成績,并實現了強大的圖像理解的能力。
我們還記得 Gemini 發布之后,谷歌馬上被曝出給 Demo 加速。這讓人們對新技術產生了一些質
原文鏈接:多模態大模型,阿里通義千問能和GPT-4V掰手腕了
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...