突破數(shù)據(jù)思維密度,僅4T數(shù)據(jù)讓8B模型逼近GPT-4o-mini
原標(biāo)題:突破數(shù)據(jù)思維密度,僅4T數(shù)據(jù)讓8B模型逼近GPT-4o-mini
文章來(lái)源:夕小瑤科技說(shuō)
內(nèi)容字?jǐn)?shù):4698字
上海人工智能實(shí)驗(yàn)室發(fā)布書生·浦語(yǔ)3.0:數(shù)據(jù)精煉框架提升大模型性能
本文總結(jié)了上海人工智能實(shí)驗(yàn)室發(fā)布的書生·浦語(yǔ)3.0 (InternLM3)大模型的關(guān)鍵特性及突破。該模型通過創(chuàng)新性的數(shù)據(jù)精煉框架,在有限的數(shù)據(jù)量下實(shí)現(xiàn)了顯著的性能提升,并首次在通用模型中融合了常規(guī)對(duì)話和深度思考能力,為通用人工智能的“通專融合”技術(shù)路徑提供了新的范例。
1. 數(shù)據(jù)精煉框架:提升數(shù)據(jù)效率,突破算力瓶頸
面對(duì)大模型訓(xùn)練中日益嚴(yán)峻的數(shù)據(jù)瓶頸問題,上海AI實(shí)驗(yàn)室提出“思維密度”(IQPT)的概念,強(qiáng)調(diào)數(shù)據(jù)質(zhì)量而非單純規(guī)模的重要性。 書生·浦語(yǔ)3.0通過構(gòu)建大規(guī)模數(shù)據(jù)精煉框架,僅使用4T訓(xùn)練數(shù)據(jù)就達(dá)到了同量級(jí)開源模型(約18T數(shù)據(jù))的性能,訓(xùn)練成本節(jié)省75%以上。該框架的核心在于:
- 數(shù)據(jù)處理的智能化:運(yùn)用智能體自我演進(jìn)技術(shù),對(duì)千萬(wàn)個(gè)領(lǐng)域的數(shù)據(jù)進(jìn)行大規(guī)模自動(dòng)化質(zhì)檢和定制化處理。
- 高價(jià)值數(shù)據(jù)的合成:基于“通專融合”方式,利用通用模型快速迭代合成算法,再用精選數(shù)據(jù)訓(xùn)練專用模型,最終合成大量高質(zhì)量數(shù)據(jù)。
通過上述框架,書生·浦語(yǔ)3.0的數(shù)據(jù)思維密度比Llama3.1高出4倍以上,展現(xiàn)了顯著的“投入產(chǎn)出比”優(yōu)勢(shì)。
2. 深度思考與常規(guī)對(duì)話融合:兼具“能言”與“巧思”
書生·浦語(yǔ)3.0首次在通用模型中實(shí)現(xiàn)了深度思考和常規(guī)對(duì)話能力的融合,用戶可通過系統(tǒng)提示詞一鍵切換模式。這突破了以往需要分別構(gòu)建專用模型的限制,使得單一模型能夠應(yīng)對(duì)更多真實(shí)場(chǎng)景。該融合能力的實(shí)現(xiàn),得益于研究團(tuán)隊(duì)對(duì)不同類型數(shù)據(jù)的融合訓(xùn)練方案的探索,以及基于世界知識(shí)樹的指令標(biāo)注與合成方案。
3. 開源賦能:積極擁抱開源社區(qū)和國(guó)產(chǎn)生態(tài)
上海AI實(shí)驗(yàn)室積極推動(dòng)書生·浦語(yǔ)3.0的開源,提供開源基座模型、全棧開源工具鏈等,方便產(chǎn)業(yè)界和開發(fā)者使用。同時(shí),實(shí)驗(yàn)室還與昇騰、寒武紀(jì)、沐曦等算力硬件廠商合作,實(shí)現(xiàn)了書生·浦語(yǔ)3.0在新興算力硬件上的高效運(yùn)行,促進(jìn)AI生態(tài)繁榮。
4. 性能表現(xiàn):超越同量級(jí)開源模型,逼近GPT-4
基于司南OpenCompass開源評(píng)測(cè)框架,書生·浦語(yǔ)3.0在CMMLU、GPQA等多個(gè)權(quán)威評(píng)測(cè)集上取得了領(lǐng)先成績(jī),綜合性能接近GPT-4-mini。它能夠出色地完成推理謎題、猜數(shù)字游戲等任務(wù),并展現(xiàn)了優(yōu)秀的創(chuàng)作能力和深度信息挖掘能力,例如在二手房網(wǎng)站上模擬用戶行為查找房源。
總而言之,書生·浦語(yǔ)3.0 通過數(shù)據(jù)精煉框架和“通專融合”技術(shù)路徑,在提升模型性能的同時(shí),降低了訓(xùn)練成本,并實(shí)現(xiàn)了深度思考與常規(guī)對(duì)話能力的融合,為大模型發(fā)展提供了新的方向。
聯(lián)系作者
文章來(lái)源:夕小瑤科技說(shuō)
作者微信:
作者簡(jiǎn)介:低負(fù)擔(dān)解碼AI世界,硬核也可愛!聚集35萬(wàn)AI發(fā)燒友、開發(fā)者和從業(yè)者,廣泛覆蓋互聯(lián)網(wǎng)大廠中高管、AI公司創(chuàng)始人和機(jī)構(gòu)投資人。一線作者來(lái)自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189