HuggingFace教你怎樣做出SOTA視覺模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:HuggingFace教你怎樣做出SOTA視覺模型
關(guān)鍵字:模型,數(shù)據(jù),視覺,架構(gòu),經(jīng)驗
文章來源:量子位
內(nèi)容字?jǐn)?shù):5508字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI前有OpenAI的GPT-4o,后有谷歌的系列王炸,先進(jìn)的多模態(tài)大模型接連炸場。
其他從業(yè)者在震撼之余,也再次開始思考怎么追趕這些超級模型了。
剛好在這時,HuggingFace和法國索邦大學(xué)的一篇論文,總結(jié)出了構(gòu)建視覺大模型的關(guān)鍵經(jīng)驗,給開發(fā)者指明了一條路。
這些經(jīng)驗涵蓋了模型架構(gòu)選擇、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)等多個方面,作者在多方比較之后給出了詳盡的總結(jié),核心要點包括這些內(nèi)容:
想把視覺大模型搞好,架構(gòu)的選擇很重要。
語言模型對整體表現(xiàn)的影響,比視覺模塊更大。
采用分階段預(yù)訓(xùn)練策略,更有利于構(gòu)建模型能力。
訓(xùn)練數(shù)據(jù)應(yīng)包含多種類型,并注意之間的比例平衡。
可以說,HF能夠打造出同規(guī)模SOTA的視覺模型Idefics2,背后依靠的都是這些經(jīng)驗。
Idefics2基于Mistral-7B打造,整體擁有8B的參數(shù)量,可以準(zhǔn)確識別出手寫字體。
專業(yè)人士評價稱,這是一篇很好的調(diào)查報告,對視覺模型開發(fā)者很有幫助,不過同時也提醒說不要當(dāng)成萬金油來看。
當(dāng)然也有人打趣說,什么架構(gòu)數(shù)據(jù)都是浮云,有GPU才是最關(guān)鍵的。
倒也有些道理,不過玩笑歸玩笑,還是來看
原文鏈接:HuggingFace教你怎樣做出SOTA視覺模型
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破