斯坦福宣布前端開發(fā)要失業(yè)了？！一張截圖生成代碼，64%優(yōu)于原網(wǎng)頁！

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布大數(shù)據(jù)文摘

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：斯坦福宣布前端開發(fā)要失業(yè)了？！一張截圖生成代碼，64%優(yōu)于原網(wǎng)頁！
關(guān)鍵字：網(wǎng)頁,模型,提示,文本,代碼
文章來源：大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù)：9622字

內(nèi)容摘要：

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤科技說作者：芒果
隨著生成型人工智能（AI）的飛速發(fā)展，多模態(tài)理解和代碼生成的能力達(dá)到了前所未有的水平。這為前端開發(fā)帶來了一場自動(dòng)化，其中多模態(tài)大型語言模型（LLMs）有望直接將視覺設(shè)計(jì)轉(zhuǎn)換為代碼實(shí)現(xiàn)。
斯坦福和谷歌等單位的研究者將這一任務(wù)形式化為Design2Code任務(wù)，并對其進(jìn)行了全面的基準(zhǔn)測試。研究人員手動(dòng)策劃了一個(gè)包含484個(gè)多樣化的真實(shí)世界網(wǎng)頁的測試案例，并開發(fā)了一套自動(dòng)評估指標(biāo)，以評估當(dāng)前多模態(tài)LLMs在將截圖作為輸入的情況下，能夠多么精確地生成直接渲染成給定參考網(wǎng)頁的代碼實(shí)現(xiàn)。此外，還通過全面的人類評估來補(bǔ)充自動(dòng)指標(biāo)。研究者開發(fā)了一系列多模態(tài)提示方法，并展示了它們在GPT-4V和Gemini Pro Vision上的有效性。此外，進(jìn)一步對一個(gè)開源的Design2Code-18B模型進(jìn)行了微調(diào)，成功地達(dá)到了與Gemini Pro Vision相匹配的性能。無論是人類評估還是自動(dòng)指標(biāo)都顯示，GPT-4V在這項(xiàng)任務(wù)上的表現(xiàn)優(yōu)于其他模型。研究者認(rèn)為，在視覺外觀和內(nèi)容方面，GPT-4V生成的網(wǎng)頁可以在49%的案例中替代原始參考網(wǎng)頁；而且令人驚訝的是，

原文鏈接：斯坦福宣布前端開發(fā)要失業(yè)了？！一張截圖生成代碼，64%優(yōu)于原網(wǎng)頁！