斯坦福宣布前端開發(fā)要失業(yè)了?!一張截圖生成代碼,64%優(yōu)于原網(wǎng)頁!
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:斯坦福宣布前端開發(fā)要失業(yè)了?!一張截圖生成代碼,64%優(yōu)于原網(wǎng)頁!
關(guān)鍵字:網(wǎng)頁,模型,提示,文本,代碼
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):9622字
內(nèi)容摘要:
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤科技說作者:芒果
隨著生成型人工智能(AI)的飛速發(fā)展,多模態(tài)理解和代碼生成的能力達(dá)到了前所未有的水平。這為前端開發(fā)帶來了一場自動(dòng)化,其中多模態(tài)大型語言模型(LLMs)有望直接將視覺設(shè)計(jì)轉(zhuǎn)換為代碼實(shí)現(xiàn)。
斯坦福和谷歌等單位的研究者將這一任務(wù)形式化為Design2Code任務(wù),并對其進(jìn)行了全面的基準(zhǔn)測試。研究人員手動(dòng)策劃了一個(gè)包含484個(gè)多樣化的真實(shí)世界網(wǎng)頁的測試案例,并開發(fā)了一套自動(dòng)評估指標(biāo),以評估當(dāng)前多模態(tài)LLMs在將截圖作為輸入的情況下,能夠多么精確地生成直接渲染成給定參考網(wǎng)頁的代碼實(shí)現(xiàn)。此外,還通過全面的人類評估來補(bǔ)充自動(dòng)指標(biāo)。研究者開發(fā)了一系列多模態(tài)提示方法,并展示了它們在GPT-4V和Gemini Pro Vision上的有效性。此外,進(jìn)一步對一個(gè)開源的Design2Code-18B模型進(jìn)行了微調(diào),成功地達(dá)到了與Gemini Pro Vision相匹配的性能。無論是人類評估還是自動(dòng)指標(biāo)都顯示,GPT-4V在這項(xiàng)任務(wù)上的表現(xiàn)優(yōu)于其他模型。研究者認(rèn)為,在視覺外觀和內(nèi)容方面,GPT-4V生成的網(wǎng)頁可以在49%的案例中替代原始參考網(wǎng)頁;而且令人驚訝的是,
原文鏈接:斯坦福宣布前端開發(fā)要失業(yè)了?!一張截圖生成代碼,64%優(yōu)于原網(wǎng)頁!
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化
相關(guān)文章
