DianJin-R1 – 阿里云通義點(diǎn)金聯(lián)合蘇大推出的金融推理大模型

DianJin-R1是一款由阿里云通義點(diǎn)金團(tuán)隊與蘇州大合開發(fā)的金融領(lǐng)域推理增強(qiáng)大模型,專為處理各種金融任務(wù)而設(shè)計。它結(jié)合了前沿技術(shù)與豐富的數(shù)據(jù)支持,利用推理增強(qiáng)監(jiān)督和強(qiáng)化學(xué)習(xí)的方法,提高了金融推理任務(wù)的表現(xiàn)。該模型的核心是DianJin-R1-Data數(shù)據(jù)集,整合了CFLUE、FinQA和中國合規(guī)檢查(CCC)數(shù)據(jù)集,涵蓋了多樣化的金融推理場景。
DianJin-R1是什么
DianJin-R1是一個專為金融任務(wù)量身定制的推理增強(qiáng)大模型,由阿里云通義點(diǎn)金團(tuán)隊與蘇州大學(xué)的合作成果。它通過結(jié)合先進(jìn)的技術(shù)與全面的數(shù)據(jù)支持,顯著提升了金融推理的能力。該模型的核心是DianJin-R1-Data數(shù)據(jù)集,集合了CFLUE、FinQA和中國合規(guī)檢查(CCC)數(shù)據(jù)集,以應(yīng)對多樣化的金融推理場景。DianJin-R1提供兩個版本:DianJin-R1-7B和DianJin-R1-32B,均采用監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)兩階段的優(yōu)化策略,通過組相對策略優(yōu)化(GRPO)方法,并結(jié)合雙重獎勵信號來提升推理質(zhì)量。在眾多金融領(lǐng)域的基準(zhǔn)測試中,DianJin-R1表現(xiàn)優(yōu)于傳統(tǒng)的非推理模型,在CCC數(shù)據(jù)集上,其單次調(diào)用的推理效果甚至超越了多代理系統(tǒng)。
DianJin-R1的主要功能
- 金融推理增強(qiáng):通過推理增強(qiáng)監(jiān)督和強(qiáng)化學(xué)習(xí),顯著提升金融任務(wù)的推理能力。在CFLUE、FinQA和CCC等金融測試集上,DianJin-R1的表現(xiàn)超越了基礎(chǔ)模型。
- 高質(zhì)量數(shù)據(jù)集支持:DianJin-R1基于DianJin-R1-Data數(shù)據(jù)集構(gòu)建,整合了CFLUE、FinQA和CCC數(shù)據(jù)集,覆蓋多種金融推理場景。
- 結(jié)構(gòu)化推理輸出:模型能夠以結(jié)構(gòu)化的形式生成推理步驟和最終答案,便于理解與應(yīng)用。
- 強(qiáng)化學(xué)習(xí)優(yōu)化:采用群體相對策略優(yōu)化(GRPO)算法,結(jié)合格式獎勵與準(zhǔn)確性獎勵,進(jìn)一步優(yōu)化推理質(zhì)量。
- 高效推理能力:在實(shí)際應(yīng)用中,DianJin-R1的單次調(diào)用推理模型的表現(xiàn)與多代理系統(tǒng)相當(dāng),甚至更具優(yōu)勢,并且計算成本更低。
產(chǎn)品官網(wǎng)
- Github倉庫:https://github.com/aliyun/qwen-dianjin
- HuggingFace模型庫:https://huggingface.co/DianJin
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.15716
DianJin-R1的應(yīng)用場景
- 金融風(fēng)險評估與合規(guī)檢查:DianJin-R1高效處理復(fù)雜的金融合規(guī)任務(wù),例如在CCC數(shù)據(jù)集上的應(yīng)用中,模型單次調(diào)用即可實(shí)現(xiàn)與多代理系統(tǒng)相當(dāng)甚至更優(yōu)的性能,從而顯著降低計算成本。
- 金融問答與客戶服務(wù):在FinQA數(shù)據(jù)集的測試中,DianJin-R1展現(xiàn)了卓越的金融問答能力,為客戶提供準(zhǔn)確的金融信息和解決方案,助力提升金融機(jī)構(gòu)的客戶服務(wù)質(zhì)量和效率。
- 金融考試與教育:DianJin-R1在CFLUE數(shù)據(jù)集上的表現(xiàn)尤為突出,準(zhǔn)確率從77.95%提升至86.74%。這表明模型可用于金融考試的輔助訓(xùn)練和教育場景,幫助考生深入理解金融知識。
- 復(fù)雜金融任務(wù)的推理與決策:通過結(jié)構(gòu)化推理和強(qiáng)化學(xué)習(xí)優(yōu)化,DianJin-R1能夠處理復(fù)雜的金融任務(wù),如財務(wù)報表分析、投資決策等。
常見問題
- DianJin-R1的適用領(lǐng)域有哪些?:DianJin-R1主要針對金融領(lǐng)域,適用于金融風(fēng)險評估、合規(guī)檢查、金融問答、客戶服務(wù)及金融教育等場景。
- 如何獲取DianJin-R1?:您可以通過其Github倉庫和HuggingFace模型庫獲取DianJin-R1的相關(guān)資源和文檔。
- DianJin-R1的性能如何?:在多個金融領(lǐng)域的基準(zhǔn)測試中,DianJin-R1的表現(xiàn)顯著優(yōu)于傳統(tǒng)模型,尤其在CCC數(shù)據(jù)集上,單次調(diào)用的推理能力超過多代理系統(tǒng)。

粵公網(wǎng)安備 44011502001135號