HF多模態(tài)
facebook/dino-vitb16
模型描述
Vision Transformer(ViT)是一個transformer編碼器模型(類似于BERT),以自監(jiān)督方式預訓練于一個大型圖像集合(即ImageNet-1k),分辨率為224×224像素。
將圖像作為固定大小的補丁序列(分辨率為16×16)呈現(xiàn)給模型,這些補丁被線性嵌入。在序列開始添加[CLS]令牌以用于分類任務。在將序列提供給Transformer編碼器的層之前,還添加絕對位置嵌入。
請注意,此模型不包括任何微調(diào)頭。
通過預訓練模型,它學習了圖像的內(nèi)部表示,然后可以用于提取對下游任務有用的特征:例如,如果您有一個帶標簽的圖像數(shù)據(jù)集,可以在預訓練的編碼器的頂部放置一個線性層來訓練標準分類器。通常將線性層放置在[CLS]令牌的頂部,因為此令牌的最后隱藏狀態(tài)可以看作是整個圖像的表示。
數(shù)據(jù)統(tǒng)計
數(shù)據(jù)評估
關于facebook/dino-vitb16特別聲明
本站OpenI提供的facebook/dino-vitb16都來源于網(wǎng)絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 5月 26日 下午5:53收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進行刪除,OpenI不承擔任何責任。
相關導航
暫無評論...