AIGC動態歡迎閱讀
原標題:首次證實白盒Transformer可擴展性!馬毅教授CRATE-α:鯨吞14億數據,性能穩步提升
關鍵字:模型,性能,數據,解釋性,準確率
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:LRS
【新智元導讀】CRATE-α是一種新型Transformer架構變體,通過設計改進提升了模型的可擴展性、性能和可解釋性,CRATE-α-Base在ImageNet分類任務上的性能顯著超過了之前最好的CRATE-B模型,其性能會隨著模型和數據集規模擴大而繼續提升。在過去的幾年里,Transformer架構在自然語言處理(NLP)、圖像處理和視覺計算領域的深度表征學習中取得了顯著的成就,幾乎成為了AI領域的主導技術。
然而,雖然Transformer架構及其眾多變體在實踐中取得了巨大成功,但其設計大多是基于經驗的,并沒有嚴格的數學解釋,也在一定程度上限制了研究人員的思路,無法開發出更高效、更具可解釋性的Transformer新變體。
為了填補這一空白,馬毅教授團隊曾發布過白盒Transformer模型CRATE,其架構的每一層都是通過數學推導得到的,可以完全解釋為展開的梯度下降迭代;此外,CRATE學習到的模型和特征在語義上也比傳統的Transformer模型具有更好的可解釋性,例如,即使模型僅在分類任務上進行訓練,可視化圖像的特征也能自然地形成該圖像的零樣本分割
原文鏈接:首次證實白盒Transformer可擴展性!馬毅教授CRATE-α:鯨吞14億數據,性能穩步提升
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...