OThink-MR1 – OPPO聯(lián)合港科大推出的多模態(tài)語(yǔ)言模型優(yōu)化框架

OThink-MR1是由OPPO研究院與香港科技大學(xué)(廣州)聯(lián)合開(kāi)發(fā)的一種多模態(tài)語(yǔ)言模型優(yōu)化框架。該框架通過(guò)動(dòng)態(tài)調(diào)整Kullback-Leibler(KL)散度策略(GRPO-D)與獎(jiǎng)勵(lì)模型,有效提升多模態(tài)模型在復(fù)雜任務(wù)中的推理和泛化能力。OThink-MR1在視覺(jué)計(jì)數(shù)和幾何推理等任務(wù)中表現(xiàn)優(yōu)異,相較于傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法,展現(xiàn)出更強(qiáng)的跨任務(wù)適應(yīng)性,為多模態(tài)模型的普遍推理能力的提升開(kāi)辟了新途徑,未來(lái)在各個(gè)領(lǐng)域都有望發(fā)揮重要作用。
OThink-MR1是什么
OThink-MR1是OPPO研究院與香港科技大學(xué)(廣州)協(xié)作推出的一款多模態(tài)語(yǔ)言模型優(yōu)化框架。它采用動(dòng)態(tài)調(diào)整的Kullback-Leibler(KL)散度策略(GRPO-D)和獎(jiǎng)勵(lì)模型來(lái)增強(qiáng)多模態(tài)模型在復(fù)雜任務(wù)中的泛化推理能力。在視覺(jué)計(jì)數(shù)、幾何推理等多模態(tài)任務(wù)中,OThink-MR1的表現(xiàn)顯著優(yōu)于傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法,并在跨任務(wù)泛化實(shí)驗(yàn)中展現(xiàn)出卓越的適應(yīng)性。這一框架為多模態(tài)模型的通用推理能力提升開(kāi)辟了新的前景,預(yù)計(jì)將在更多領(lǐng)域中發(fā)揮關(guān)鍵作用。
OThink-MR1的主要功能
- 提升多模態(tài)任務(wù)性能:基于動(dòng)態(tài)強(qiáng)化學(xué)習(xí)的模型優(yōu)化顯著提升多模態(tài)任務(wù)(如視覺(jué)計(jì)數(shù)、幾何推理等)的準(zhǔn)確性和泛化能力。
- 跨任務(wù)泛化能力:使模型在一種多模態(tài)任務(wù)上訓(xùn)練后,能夠有效遷移到其他不同類型的多模態(tài)任務(wù),降低對(duì)特定任務(wù)數(shù)據(jù)的依賴。
- 動(dòng)態(tài)平衡探索與利用:在訓(xùn)練過(guò)程中,動(dòng)態(tài)調(diào)整探索新策略與利用已有經(jīng)驗(yàn)的平衡,增強(qiáng)模型的全局優(yōu)化能力。
- 增強(qiáng)模型的推理能力:依托獎(jiǎng)勵(lì)模型,引導(dǎo)模型生成準(zhǔn)確且符合格式要求的輸出,從而提高整體推理能力。
OThink-MR1的技術(shù)原理
- 動(dòng)態(tài)KL散度策略(GRPO-D):GRPO-D策略受經(jīng)典強(qiáng)化學(xué)習(xí)中的?-greedy策略啟發(fā),遵循“早期探索,后期利用”的原則。通過(guò)動(dòng)態(tài)調(diào)整KL散度的權(quán)重,平衡模型在訓(xùn)練過(guò)程中的探索(嘗試新策略)與利用(利用已有經(jīng)驗(yàn))。訓(xùn)練初期,KL散度權(quán)重較小,以鼓勵(lì)模型廣泛探索;隨著訓(xùn)練的深入,權(quán)重逐漸增加,引導(dǎo)模型利用累積的經(jīng)驗(yàn),避免過(guò)早收斂到次優(yōu)解。
- 獎(jiǎng)勵(lì)模型:評(píng)估模型輸出的準(zhǔn)確性,例如在視覺(jué)計(jì)數(shù)任務(wù)中,模型輸出與真實(shí)計(jì)數(shù)的匹配程度。同時(shí)確保模型輸出符合特定格式要求,例如在幾何推理任務(wù)中,模型輸出的格式是否正確。通過(guò)結(jié)合驗(yàn)證準(zhǔn)確性獎(jiǎng)勵(lì)與格式獎(jiǎng)勵(lì),為模型提供更全面的反饋,指導(dǎo)其學(xué)習(xí)過(guò)程。
- 強(qiáng)化學(xué)習(xí)優(yōu)化:基于最大化獎(jiǎng)勵(lì)函數(shù),優(yōu)化模型策略。在每個(gè)訓(xùn)練步驟,模型根據(jù)當(dāng)前策略生成輸出,獎(jiǎng)勵(lì)模型評(píng)估輸出質(zhì)量,并根據(jù)獎(jiǎng)勵(lì)信號(hào)調(diào)整策略,逐步提升性能。
OThink-MR1的官網(wǎng)
- arXiv技術(shù)論文:https://arxiv.org/pdf/2503.16081
OThink-MR1的應(yīng)用場(chǎng)景
- 智能視覺(jué)問(wèn)答:能夠準(zhǔn)確理解圖像內(nèi)容并生成相應(yīng)答案,例如識(shí)別復(fù)雜場(chǎng)景中的物體數(shù)量。
- 圖像描述生成:生成豐富且準(zhǔn)確的圖像描述,從而提供更詳細(xì)的視覺(jué)信息。
- 幾何問(wèn)題求解:分析圖像中的幾何圖形計(jì)算角度、長(zhǎng)度等幾何屬性。
- 多模態(tài)內(nèi)容審核:結(jié)合圖像和文本信息,判斷內(nèi)容的合規(guī)性,提高審核效率。
- 虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí):為用戶提供智能交互體驗(yàn),例如實(shí)時(shí)場(chǎng)景解讀和導(dǎo)航建議。
常見(jiàn)問(wèn)題
- OThink-MR1適用于哪些領(lǐng)域? OThink-MR1可廣泛應(yīng)用于智能視覺(jué)問(wèn)答、圖像描述生成、幾何問(wèn)題求解等多個(gè)領(lǐng)域。
- 與傳統(tǒng)模型相比,OThink-MR1的優(yōu)勢(shì)是什么? OThink-MR1在多模態(tài)任務(wù)的準(zhǔn)確性和泛化能力上表現(xiàn)更為出色,同時(shí)具備更強(qiáng)的跨任務(wù)適應(yīng)性。
- 如何獲取OThink-MR1的更多信息? 可訪問(wèn)OThink-MR1的技術(shù)論文和官方網(wǎng)站了解更多詳細(xì)信息。

粵公網(wǎng)安備 44011502001135號(hào)