原標題:DeepMind悄悄發布PaliGemma二代,最易微調「視覺語言全能王」來了,多項任務登頂SOTA
文章來源:新智元
內容字數:5540字
新智元報道:PaliGemma 2模型的創新與應用
根據新智元的報道,谷歌悄然發布了PaliGemma 2模型,在多個任務上取得了行業領先的成績。該模型在圖像描述、樂譜識別和醫學圖像報告生成等領域表現突出,提供了多種尺寸和分辨率的版本,以滿足不同任務的需求。
1. PaliGemma 2的性能提升
PaliGemma 2在PaliGemma的基礎上進行了顯著改進,增強了視覺能力并簡化了微調過程。技術報告指出,該模型能夠生成詳細、上下文相關的圖像描述,超越簡單的對象識別。其在化學式識別、樂譜識別和放射學報告生成等方面的性能得到了提升。
2. 模型架構與訓練階段
研究人員遵循與PaliGemma相同的建模和訓練設置,進行三階段的預訓練。第一階段結合了預訓練的視覺編碼器和Gemma 2模型權重,第二階段則針對不同分辨率的數據進行微調,第三階段則將模型微調至目標任務。這種分階段的訓練方式確保了模型在各類任務中的高效性。
3. 多任務性能測試
在文本檢測、表格結構識別和樂譜識別等多項任務中,PaliGemma 2表現出色。尤其在高級光學字符識別(OCR)任務中,模型在896像素分辨率下的性能超越了其他先進模型,展示了其多功能性和在預訓練階段的優勢。
4. 量化與推理速度
研究還對PaliGemma 2的推理速度進行了評估,使用CPU進行推理的性能表現良好。同時,在量化實驗中,從32位浮點轉換到16位浮點的過程并未顯著影響模型性能,證明了模型在資源使用方面的高效性。
總結
PaliGemma 2模型通過一系列創新和優化,提升了視覺語言模型的性能,適應了多種任務需求。其在醫學圖像、樂譜識別及圖像描述等領域的應用潛力巨大,為進一步的研究和開發奠定了基礎。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。