引入長思維鏈！微信基于阿里千問大模型搞出個(gè)翻譯版o1

AIGC動(dòng)態(tài)11個(gè)月前發(fā)布機(jī)器之心

DRT-o1 將長 CoT 的成功引入神經(jīng)機(jī)器翻譯。

原標(biāo)題：引入長思維鏈！微信基于阿里千問大模型搞出個(gè)翻譯版o1
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5410字

微信AI團(tuán)隊(duì)提出DRT-o1：賦予機(jī)器翻譯“長思考”能力

1. **背景：** 長思維鏈(CoT)在推理任務(wù)中展現(xiàn)出顯著優(yōu)勢。微信AI團(tuán)隊(duì)受此啟發(fā)，提出DRT-o1模型，將長CoT引入神經(jīng)機(jī)器翻譯(MT)，尤其針對文學(xué)翻譯中需要深層理解比喻、隱喻等復(fù)雜語義的場景。

2. **挑戰(zhàn)與解決方法：** 并非所有翻譯場景都需要長思考。DRT-o1專注于處理需要深層語義理解的文學(xué)翻譯，例如包含明喻和隱喻的句子。為此，研究團(tuán)隊(duì)面臨兩個(gè)關(guān)鍵挑戰(zhàn)：一是識(shí)別需要長思考的翻譯場景；二是合成具有長思考過程的機(jī)器翻譯數(shù)據(jù)。

3. **數(shù)據(jù)合成方法：** 研究人員提出一個(gè)多智能體框架，包含三個(gè)智能體：翻譯者、顧問和評估者。該框架迭代地進(jìn)行翻譯，顧問提供改進(jìn)建議，評估者給出評分。迭代過程直到達(dá)到預(yù)設(shè)評分閾值或最大迭代次數(shù)才停止。整個(gè)過程模擬了人類翻譯中“長思考”的步驟。最終生成的“長思考”過程由GPT-4o進(jìn)行潤色，提升可讀性和流暢性。

4. **數(shù)據(jù)來源和處理：** 研究人員從古騰堡計(jì)劃中篩選出約63K個(gè)包含比喻或隱喻且直譯效果不佳的英語句子，作為訓(xùn)練數(shù)據(jù)。這些句子經(jīng)過多智能體框架處理，生成22264個(gè)包含長思考過程的英譯漢樣本。

5. **模型訓(xùn)練和實(shí)驗(yàn)結(jié)果：** 研究人員使用Qwen2.5-7B-Instruct和Qwen2.5-14B-Instruct作為基礎(chǔ)模型，分別訓(xùn)練得到DRT-o1-7B和DRT-o1-14B。實(shí)驗(yàn)結(jié)果表明，DRT-o1在文學(xué)翻譯任務(wù)上顯著優(yōu)于基線模型，例如DRT-o1-7B在BLEU、CometKiwi和CometScore指標(biāo)上均有大幅提升。

6. **主要貢獻(xiàn)：** DRT-o1模型成功將長CoT應(yīng)用于機(jī)器翻譯，并提出了一種有效的數(shù)據(jù)合成方法，通過多智能體框架模擬人類翻譯中的長思考過程，最終在文學(xué)翻譯任務(wù)中取得了顯著成果。

7. **總結(jié)：** DRT-o1為機(jī)器翻譯領(lǐng)域引入了一種新的范式，證明了長思考在處理復(fù)雜語言任務(wù)中的有效性，為未來研究提供了新的方向。

聯(lián)系作者

文章來源：機(jī)器之心
作者微信：
作者簡介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# AI翻譯 # 大模型應(yīng)用 # 微信翻譯 # 長思維鏈 # 阿里千問大模型

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

引入長思維鏈！微信基于阿里千問大模型搞出個(gè)翻譯版o1

DRT-o1 將長 CoT 的成功引入神經(jīng)機(jī)器翻譯。

微信AI團(tuán)隊(duì)提出DRT-o1：賦予機(jī)器翻譯“長思考”能力

聯(lián)系作者

「數(shù)字孿生」東京上線！Jim Fan：具身智能零樣本遷移現(xiàn)實(shí)世界，共享「蜂群思維」

裝上透明屏幕的書架，憑什么能賣 43 萬？

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

引入長思維鏈！微信基于阿里千問大模型搞出個(gè)翻譯版o1

DRT-o1 將長 CoT 的成功引入神經(jīng)機(jī)器翻譯。

微信AI團(tuán)隊(duì)提出DRT-o1：賦予機(jī)器翻譯“長思考”能力

聯(lián)系作者

「數(shù)字孿生」東京上線！Jim Fan：具身智能零樣本遷移現(xiàn)實(shí)世界，共享「蜂群思維」

裝上透明屏幕的書架，憑什么能賣 43 萬？

相關(guān)文章

暫無評論

ChatGPT

玩虛擬模特？

引入長思維鏈！微信基于阿里千問大模型搞出個(gè)翻譯版o1

DRT-o1 將長 CoT 的成功引入神經(jīng)機(jī)器翻譯。

「數(shù)字孿生」東京上線！Jim Fan：具身智能零樣本遷移現(xiàn)實(shí)世界，共享「蜂群思維」

玩虛擬模特？