MaskSearch – 阿里通義推出的檢索增強(qiáng)預(yù)訓(xùn)練框架

MaskSearch是阿里巴巴通義實(shí)驗(yàn)室推出的創(chuàng)新型通用預(yù)訓(xùn)練框架,旨在提升大型語言模型(LLM)的智能體搜索能力。它通過檢索增強(qiáng)掩碼預(yù)測(cè)(RAMP)任務(wù),讓模型在輸入文本中對(duì)關(guān)鍵信息進(jìn)行掩碼處理,并借助外部知識(shí)庫調(diào)用搜索工具預(yù)測(cè)被掩蓋的片段。該框架的功能包括提升問答性能、適應(yīng)多種任務(wù)、兼容多種訓(xùn)練方法以及數(shù)據(jù)集擴(kuò)展。
### MaskSearch: 解鎖LLM智能體搜索的新篇章
在人工智能領(lǐng)域不斷演進(jìn)的浪潮中,阿里巴巴通義實(shí)驗(yàn)室隆重推出了MaskSearch,一款革新性的通用預(yù)訓(xùn)練框架,旨在大幅提升大型語言模型(LLM)在智能體搜索方面的卓越性能。 MaskSearch的核心目標(biāo)在于增強(qiáng)LLM對(duì)復(fù)雜信息的理解與處理能力,從而使其能夠更精準(zhǔn)地檢索、分析和生成信息。
### MaskSearch的核心功能
- 卓越的問答能力:MaskSearch顯著增強(qiáng)了LLM在開放域多跳問答場(chǎng)景中的表現(xiàn),尤其在領(lǐng)域內(nèi)和領(lǐng)域外下游任務(wù)上,讓模型能夠更深入地理解復(fù)雜問題并給出精準(zhǔn)解答。
- 廣泛的任務(wù)適應(yīng)性:憑借RAMP任務(wù)和多智能體生成的思維鏈數(shù)據(jù),MaskSearch能夠出色地適應(yīng)各種問答任務(wù),在不同應(yīng)用場(chǎng)景下展現(xiàn)出卓越的性能。
- 靈活的訓(xùn)練方法:MaskSearch兼容監(jiān)督學(xué)習(xí)(SFT)和強(qiáng)化學(xué)習(xí)(RL)兩種訓(xùn)練方法,用戶可以根據(jù)具體任務(wù)需求靈活選擇合適的訓(xùn)練策略。
- 強(qiáng)大的數(shù)據(jù)集擴(kuò)展能力:通過構(gòu)建大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集(例如1000萬樣本),MaskSearch能夠有效提升模型的訓(xùn)練效果和可擴(kuò)展性,為未來發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。
### MaskSearch的技術(shù)精髓
- 檢索增強(qiáng)掩碼預(yù)測(cè)(RAMP)任務(wù):RAMP任務(wù)是MaskSearch的核心,它借鑒了BERT的掩碼機(jī)制,讓模型在輸入文本序列中對(duì)關(guān)鍵信息進(jìn)行掩碼處理。隨后,模型會(huì)主動(dòng)利用外部知識(shí)庫,調(diào)用搜索工具來預(yù)測(cè)這些被掩蓋的文本片段。除了常見的命名實(shí)體、日期、數(shù)字等,RAMP還涵蓋了本體知識(shí)、特定術(shù)語和數(shù)值等關(guān)鍵信息,從而增加了任務(wù)的挑戰(zhàn)性,促使模型在檢索和推理過程中更加精細(xì)化地處理信息。
- 多智能體協(xié)同生成思維鏈(CoT)數(shù)據(jù):為了生成用于監(jiān)督微調(diào)(SFT)的思維鏈數(shù)據(jù),MaskSearch采用了多智能體系統(tǒng),包括規(guī)劃者、重寫者、觀察者等角色,協(xié)同完成思維鏈的生成任務(wù),最終由一個(gè)LLM負(fù)責(zé)答案判斷,僅保留正確答案的思維鏈。為了快速擴(kuò)展數(shù)據(jù)集并保持高質(zhì)量,使用已有數(shù)據(jù)訓(xùn)練后的教師模型,直接生成推理軌跡,逐步迭代教師模型,逐步提升數(shù)據(jù)質(zhì)量。
- 強(qiáng)化學(xué)習(xí)(RL)的創(chuàng)新實(shí)踐:在強(qiáng)化學(xué)習(xí)環(huán)節(jié),MaskSearch采用了動(dòng)態(tài)采樣策略優(yōu)化(DAPO)算法,構(gòu)建混合獎(jiǎng)勵(lì)系統(tǒng),包括格式獎(jiǎng)勵(lì)和回答獎(jiǎng)勵(lì)。格式獎(jiǎng)勵(lì)用于檢查模型輸出是否符合指定格式,回答獎(jiǎng)勵(lì)則評(píng)估生成答案與標(biāo)準(zhǔn)答案的一致性。最終選擇基于模型的獎(jiǎng)勵(lì)函數(shù),使用Qwen2.5-72B-Instruct模型作為評(píng)判,為生成答案和標(biāo)準(zhǔn)答案的一致性進(jìn)行打分。
- 課程學(xué)習(xí)的巧妙運(yùn)用:MaskSearch引入了課程學(xué)習(xí)策略,依據(jù)掩碼數(shù)量對(duì)訓(xùn)練樣本進(jìn)行難度分級(jí),引導(dǎo)模型從易到難循序漸進(jìn)地學(xué)習(xí),逐步提升其解決問題的能力。
### 了解更多
* **項(xiàng)目地址:** https://github.com/Alibaba-NLP/MaskSearch
* **技術(shù)論文:** https://arxiv.org/pdf/2505.20285
### MaskSearch的應(yīng)用場(chǎng)景
- 智能客服:在智能客服領(lǐng)域,MaskSearch能夠幫助客服系統(tǒng)更精準(zhǔn)地理解用戶問題,迅速檢索到相關(guān)的答案和信息,從而提升客服效率和用戶滿意度。
- 教育領(lǐng)域:在教育領(lǐng)域,MaskSearch可以用于構(gòu)建智能輔導(dǎo)系統(tǒng),幫助學(xué)生更好地理解和解決復(fù)雜的學(xué)術(shù)問題。它能夠根據(jù)學(xué)生的問題,檢索相關(guān)的知識(shí)點(diǎn)和解答,提供個(gè)性化的學(xué)習(xí)支持。
- 企業(yè)級(jí)搜索系統(tǒng):企業(yè)級(jí)搜索系統(tǒng)需要處理大量的內(nèi)部數(shù)據(jù)和復(fù)雜的查詢需求。MaskSearch可以增強(qiáng)企業(yè)搜索系統(tǒng)的檢索能力,能夠更準(zhǔn)確地理解用戶查詢意圖,從海量數(shù)據(jù)中快速檢索到相關(guān)信息,從而提高企業(yè)決策效率。
- 機(jī)器學(xué)習(xí)模型的調(diào)試與優(yōu)化:MaskSearch還可以應(yīng)用于機(jī)器學(xué)習(xí)模型的調(diào)試與優(yōu)化。例如,在調(diào)試圖像分類模型時(shí),MaskSearch可以幫助用戶通過掩碼屬性查詢圖像數(shù)據(jù)庫,識(shí)別模型學(xué)習(xí)到的虛假相關(guān)性,探索模型顯著性與人類注意力之間的差異。
### 常見問題
Q: MaskSearch與傳統(tǒng)的LLM預(yù)訓(xùn)練框架相比,有哪些優(yōu)勢(shì)?
A: MaskSearch的核心優(yōu)勢(shì)在于其獨(dú)特的RAMP任務(wù)和多智能體協(xié)同生成的思維鏈數(shù)據(jù),這使得模型在處理復(fù)雜問題和進(jìn)行信息檢索時(shí)表現(xiàn)更出色。此外,其兼容多種訓(xùn)練方法和數(shù)據(jù)集擴(kuò)展能力,也使其更具靈活性和可擴(kuò)展性。
Q: MaskSearch適用于哪些類型的任務(wù)?
A: MaskSearch特別適用于需要進(jìn)行復(fù)雜推理和信息檢索的問答任務(wù),例如開放域多跳問答、智能客服、教育輔導(dǎo)等。同時(shí),它也可以應(yīng)用于機(jī)器學(xué)習(xí)模型的調(diào)試與優(yōu)化。

粵公網(wǎng)安備 44011502001135號(hào)