馬斯克新作!Grok-1.5V多模態(tài)模型震撼發(fā)布:數(shù)字與物理世界完美融合

AIGC動態(tài)歡迎閱讀
原標(biāo)題:馬斯克新作!Grok-1.5V多模態(tài)模型震撼發(fā)布:數(shù)字與物理世界完美融合
關(guān)鍵字:模型,用戶,世界,基準(zhǔn),代碼
文章來源:新智元
內(nèi)容字?jǐn)?shù):8824字
內(nèi)容摘要:
新智元報道編輯:編輯部
【新智元導(dǎo)讀】馬斯克xAI的多模態(tài)模型Grok-1.5V橫空出世了!不僅多項基準(zhǔn)測試超越GPT-4V,而且看懂梗圖寫Python代碼也都不在話下。并且,為了評估模型對于真實世界的空間理解,xAI此次還推出了新基準(zhǔn)RealWorldQA。馬斯克的第一代多模態(tài)模型Grok-1.5V,終于來了!
Grok 1.5V,號稱是能連接數(shù)字世界和物理世界。
除了文本功能,它還能處理文檔、圖標(biāo)、屏幕截圖和照片之類的各種視覺信息。
很快,所有早期測試者和所有Grok用戶就能用上Grok 1.5V了。
英偉達(dá)高級科學(xué)家Jim Fan發(fā)現(xiàn)了Grok-1.5V的「最大亮點」:在他看來,Grok-1.5V最令人感興趣的,就是解決自動駕駛邊緣案例的潛力。
如果使用語言進(jìn)行「思維鏈」,幫助汽車分解復(fù)雜場景,用規(guī)則和反事實進(jìn)行推理,解釋其決策,Grok-1.5V就能將像素->動作映射提升為像素->語言->動作。
由此,特斯拉FSD V13就很有可能會理解語言Token!
特斯拉的優(yōu)勢是,具有高度成熟的數(shù)據(jù)管線,因此,就不難用高質(zhì)量的人類解釋痕跡來標(biāo)記大量邊緣案例,在多模態(tài)FSD推理上,微調(diào)G
原文鏈接:馬斯克新作!Grok-1.5V多模態(tài)模型震撼發(fā)布:數(shù)字與物理世界完美融合
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。

粵公網(wǎng)安備 44011502001135號