国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

微軟出招!新模型數(shù)學(xué)超GPT-4o編程勝Llama3.3,訓(xùn)練新范式引熱議:midtraining

AIGC動態(tài)9個(gè)月前發(fā)布 量子位
423 0 0

克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAIOpenAI谷歌天天刷流量,微軟也坐不住了,推出最新小模型Phi-4。參數(shù)量僅14B,MMLU性能就和Llama 3.3/ Qwen2.5等70B級別大模型坐一桌。數(shù)學(xué)能力上,Phi-4在美國數(shù)學(xué)競賽AMC 10/12上超過了GPT-4o等一眾大模型,分?jǐn)?shù)沖上90。編程能力也是開源模型一流,超過了70B的Llama 3.3和72B的Qwen 2.5。更引起熱議的是,微軟在技術(shù)報(bào)告中還提出了一個(gè)新的訓(xùn)練范式——midtraining。這一舉動讓Phi-4擁有了更強(qiáng)的長文本處理能力,窗口長度達(dá)到16K后,召回率依然保持在99%。小模型挑戰(zhàn)復(fù)雜推理在常見基準(zhǔn)測試中,Phi-4取得了優(yōu)異的文本處理和復(fù)雜推理水平:在MMLU上,Phi-4以84.8%的準(zhǔn)確率超過了GPT-4o-mini的81.8%和Llama-3.3的86.3%;在研究生水平STEM問答GPQA上,Phi-4準(zhǔn)確率達(dá)到56.1%,高于同尺寸模型Qwen-2.5的42.9%,甚至超過了GPT-4o的50.6%;在數(shù)學(xué)測試集MATH上,Phi-4以80.4%的準(zhǔn)確率超過GPT-4o-mini的73%,并接近GPT-4o的74.6%;編程能力方面,Phi-4在HumanEval上以82.6%超過了其他開源模型,以及GPT-4o-mini。在難度稍高的MMLU和HumanEval+上,Phi-4的表現(xiàn)也超過了其他開源模型;在ArenaHard、LiveBench和IFEval上則表現(xiàn)欠佳。另外,微軟還用內(nèi)部的基準(zhǔn)PhiBench對模型能力進(jìn)行了更全面的評估,結(jié)果Phi-4取得了56.2%的綜合得分,展現(xiàn)出在推理、知識、編程等方面的全面能力,但相比于Qwen 2.5-72B等模型,還是暴露了有待提高之處。在Phi-4的宣傳頁中,微軟還展示了其在一個(gè)具體的數(shù)學(xué)推理題目上的表現(xiàn)。Phi-4非常有條理地考慮了各種可能出現(xiàn)的情況,并計(jì)算出了正確答案。除了這些常規(guī)能力,微軟團(tuán)隊(duì)還專門在長文本上測試了Phi-4的表現(xiàn)。在8K和16K兩種窗口長度中,研究團(tuán)隊(duì)利用HELMET基準(zhǔn)評估了Pho-4和其他模型在RAG、QA問答、長文本摘要等任務(wù)上的水平。結(jié)果,Phi-4在多個(gè)任務(wù)上與同尺寸的Qwen 2.5-14B相當(dāng),部分指標(biāo)還可與70B的Llama 3.3一決高下。不過,Phi-4在某些任務(wù)(如RAG和文檔排序)上,仍有進(jìn)一步提升的空間。模型midtraining專攻長文本不同于一般大模型的預(yù)訓(xùn)練+后訓(xùn)練的兩階段模式,微軟在兩個(gè)階段中間新加入了一個(gè)midtraining階段。在10萬億tokens規(guī)模的預(yù)訓(xùn)練完成后,Phi-4可以處理4k長度的上下文窗口,而midtraining的目的是在此基礎(chǔ)上進(jìn)一步將窗口長度提升到16k。研究團(tuán)隊(duì)發(fā)現(xiàn),天然的長上下文數(shù)據(jù)(如完整的學(xué)術(shù)論文)比人工拼接短樣本更有利于訓(xùn)練長上下文能力。因此,團(tuán)隊(duì)從學(xué)術(shù)文章、書籍、代碼庫等高質(zhì)量非合成文本中篩選出長度大于8K tokens的樣本作為訓(xùn)練集,并且對長度超過16K tokens的樣本進(jìn)行加權(quán),以匹配目標(biāo)長度。為進(jìn)一步豐富長上下文訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)專門生成了滿足大于4K長度要求的新合成數(shù)據(jù),與真實(shí)長文本數(shù)據(jù)共同組成了midtraining階段的數(shù)據(jù)集。最終,midtraining階段的數(shù)據(jù)包含30%新引入的長文本數(shù)據(jù)(篩選+合成)和70%預(yù)訓(xùn)練階段的歷史數(shù)據(jù),規(guī)模為2500億tokens。同時(shí),為了適應(yīng)16K的長序列訓(xùn)練,研究團(tuán)隊(duì)將rope位置編碼的基頻從預(yù)訓(xùn)練階段的2K擴(kuò)大到250K;同時(shí),為保證訓(xùn)練穩(wěn)定性,團(tuán)隊(duì)將學(xué)習(xí)率降低為預(yù)訓(xùn)練階段的十分之一。最終,Phi-4在HELMET等長文本基準(zhǔn)測試中表現(xiàn)出色,證明了midtraining階段的有效性。除此之外,在后訓(xùn)練階段,研究團(tuán)隊(duì)還提出了一種新穎的對比學(xué)習(xí)方法——樞軸tokens搜索(PTS)。通過識別對模型輸出影響最大的關(guān)鍵tokens,并圍繞它們構(gòu)造正負(fù)樣本對,PTS可以生成高信噪比的對比學(xué)習(xí)數(shù)據(jù),顯著提升訓(xùn)練效率和效果。除了PTS生成的對比學(xué)習(xí)數(shù)據(jù),研究團(tuán)隊(duì)還引入了人類反饋對比學(xué)習(xí)(Human Feedback DPO)。他們招募了大量人員對模型輸出進(jìn)行評判,并據(jù)此構(gòu)造優(yōu)質(zhì)的正負(fù)樣本對,使得模型更加貼近人類偏好。One More Thing不過midtraining并不是微軟首次提出,早在7月份,OpenAI就已經(jīng)開始為倫敦的midtraining團(tuán)隊(duì)招人了。論文地址:https://arxiv.org/abs/2412.08905—完—點(diǎn)這里?關(guān)注我,記得標(biāo)星哦~一鍵三連「分享」、「點(diǎn)贊」和「在看」科技前沿進(jìn)展日日相見 ~

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        国产日韩欧美不卡在线| 日韩小视频在线观看专区| 色综合久久精品| 亚洲欧洲精品成人久久奇米网 | 欧美v国产在线一区二区三区| 午夜欧美电影在线观看| 欧美视频一区二区三区| 免费看日韩精品| 精品动漫一区二区三区在线观看| 国产高清在线观看免费不卡| 亚洲欧洲另类国产综合| 欧美日韩免费在线视频| 激情五月婷婷综合网| 国产精品国产三级国产有无不卡| 在线观看日韩电影| 久久av老司机精品网站导航| 国产精品久久久久aaaa樱花| 欧美日韩国产在线播放网站| 国产一区二区三区四区五区入口| 亚洲男人的天堂在线观看| 91精品国产综合久久福利软件 | 国产三区在线成人av| 成人免费看片app下载| 一区二区三区日韩欧美| 精品久久国产字幕高潮| 91碰在线视频| 国产在线精品免费av| 亚洲图片欧美一区| xf在线a精品一区二区视频网站| 91在线精品秘密一区二区| 蜜桃传媒麻豆第一区在线观看| 国产精品美女久久福利网站| 欧美一区二区私人影院日本| 99久久久国产精品| 国产高清一区日本| 奇米777欧美一区二区| 亚洲另类在线视频| 国产视频一区二区三区在线观看| 欧美日韩欧美一区二区| 色哟哟国产精品| 国产精品亚洲第一区在线暖暖韩国| 亚洲午夜免费电影| 亚洲日本中文字幕区| 国产午夜精品福利| 久久视频一区二区| 日韩欧美中文字幕精品| 欧美一区二区三级| 91精品一区二区三区久久久久久| 日本电影欧美片| 色妹子一区二区| 色综合天天在线| 91亚洲精品久久久蜜桃网站| 国产精品99久久久久久久女警 | 亚洲青青青在线视频| 久久久久久97三级| 久久午夜国产精品| 337p粉嫩大胆色噜噜噜噜亚洲| 欧美一区2区视频在线观看| 欧美日韩精品一区二区天天拍小说| 91天堂素人约啪| 日本高清不卡一区| 日本高清不卡一区| 欧美亚洲综合另类| 正在播放一区二区| 日韩一二三区视频| 欧美xxx久久| 中文字幕不卡三区| 日韩美女视频一区二区 | 精品成人一区二区| 欧美sm极限捆绑bd| 久久精品综合网| 国产精品初高中害羞小美女文 | 中文字幕免费一区| 国产精品成人一区二区三区夜夜夜| 国产精品不卡在线| 一区二区三区在线视频播放| 亚洲成人手机在线| 极品瑜伽女神91| 成人一区二区三区视频 | 亚洲色图一区二区| 亚洲国产乱码最新视频 | 一区二区三区.www| 日本成人超碰在线观看| 国产剧情在线观看一区二区| jvid福利写真一区二区三区| 91久久香蕉国产日韩欧美9色| 7799精品视频| 国产精品乱码一区二区三区软件| 亚洲国产美国国产综合一区二区 | 亚洲一区二区高清| 亚州成人在线电影| 国产99久久久国产精品免费看| 色哟哟亚洲精品| 精品国产免费视频| 一区二区在线观看视频在线观看| 免费在线视频一区| 91亚洲精华国产精华精华液| 日韩女优电影在线观看| 亚洲男女一区二区三区| 韩日欧美一区二区三区| 91久久国产最好的精华液| 久久久久9999亚洲精品| 一区二区三区日韩精品视频| 国产精品18久久久久| 欧美性xxxxx极品少妇| 国产欧美日韩在线看| 五月激情综合色| 91小宝寻花一区二区三区| 日韩欧美三级在线| 亚洲成人免费观看| av网站免费线看精品| 日韩午夜精品电影| 亚洲国产中文字幕| 色先锋aa成人| 综合久久久久综合| 成人av手机在线观看| 久久五月婷婷丁香社区| 日本不卡高清视频| 欧美日韩一区二区电影| 亚洲欧美日韩中文播放| 成人小视频在线| 国产日韩欧美不卡在线| 激情综合色综合久久| 欧美一区二区不卡视频| 日韩精品一区第一页| 欧美三级在线视频| 一区二区三区在线视频免费| 91影视在线播放| 亚洲久草在线视频| 在线免费观看一区| 亚洲在线中文字幕| 欧美中文字幕一区二区三区 | 91精品免费观看| 午夜欧美一区二区三区在线播放 | 99精品视频一区| 欧美精彩视频一区二区三区| 国产一区二区三区高清播放| 久久综合视频网| 国产成人亚洲精品青草天美| 国产日韩欧美高清| aaa国产一区| 亚洲精品第1页| 欧美日韩亚洲国产综合| 欧美aaa在线| 精品国产一区二区三区不卡| 国产精品99久久久久久久女警| 国产日韩欧美一区二区三区乱码| 成人免费黄色在线| 亚洲精品高清视频在线观看| 欧美亚洲国产一卡| 蜜臀91精品一区二区三区 | 国产亚洲制服色| 白白色 亚洲乱淫| 一级日本不卡的影视| 在线不卡免费av| 国产综合久久久久影院| 中文字幕第一页久久| 欧美图片一区二区三区| 蜜桃av一区二区在线观看| 日本一区二区电影| 欧美在线视频全部完| 狠狠色丁香九九婷婷综合五月 | 国产亚洲欧美激情| 99热国产精品| 欧美aaaaa成人免费观看视频| 国产女主播一区| 欧美三级三级三级| 久久99久久久久久久久久久| 国产精品欧美综合在线| 欧美精品在线视频| 成人精品视频网站| 天天影视色香欲综合网老头| 国产三级久久久| 欧美乱妇15p| jlzzjlzz国产精品久久| 日韩和欧美的一区| 国产精品第四页| 久久网站热最新地址| 欧美日韩中文精品| 成人午夜短视频| 久久国产尿小便嘘嘘| 亚洲大片一区二区三区| 中文字幕在线观看一区| 日韩你懂的在线观看| 欧美在线小视频| 色综合久久久久综合99| 久久99九九99精品| 三级影片在线观看欧美日韩一区二区| 国产精品丝袜黑色高跟| 91精品国产一区二区三区蜜臀| 欧洲亚洲国产日韩| 亚洲视频小说图片| 精品少妇一区二区三区在线播放| 一区二区三区电影在线播| 欧美日韩在线亚洲一区蜜芽| 国产美女视频一区| 天天射综合影视| 亚洲综合久久久| 国产精品美女久久久久久| 精品国产青草久久久久福利|