AIGC動態歡迎閱讀
原標題:HuggingFace教你怎樣做出SOTA視覺模型
關鍵字:模型,數據,視覺,架構,經驗
文章來源:量子位
內容字數:5508字
內容摘要:
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI前有OpenAI的GPT-4o,后有谷歌的系列王炸,先進的多模態大模型接連炸場。
其他從業者在震撼之余,也再次開始思考怎么追趕這些超級模型了。
剛好在這時,HuggingFace和法國索邦大學的一篇論文,總結出了構建視覺大模型的關鍵經驗,給開發者指明了一條路。
這些經驗涵蓋了模型架構選擇、訓練方法、訓練數據等多個方面,作者在多方比較之后給出了詳盡的總結,核心要點包括這些內容:
想把視覺大模型搞好,架構的選擇很重要。
語言模型對整體表現的影響,比視覺模塊更大。
采用分階段預訓練策略,更有利于構建模型能力。
訓練數據應包含多種類型,并注意之間的比例平衡。
可以說,HF能夠打造出同規模SOTA的視覺模型Idefics2,背后依靠的都是這些經驗。
Idefics2基于Mistral-7B打造,整體擁有8B的參數量,可以準確識別出手寫字體。
專業人士評價稱,這是一篇很好的調查報告,對視覺模型開發者很有幫助,不過同時也提醒說不要當成萬金油來看。
當然也有人打趣說,什么架構數據都是浮云,有GPU才是最關鍵的。
倒也有些道理,不過玩笑歸玩笑,還是來看
原文鏈接:HuggingFace教你怎樣做出SOTA視覺模型
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...