百萬tokens僅需8毛,不蒸餾造出世界一流大模型,豆包全新1.5Pro不走捷徑
超低價格就能享受到的頂級模型!
原標題:百萬tokens僅需8毛,不蒸餾造出世界一流大模型,豆包全新1.5Pro不走捷徑
文章來源:機器之心
內(nèi)容字數(shù):11209字
豆包大模型1.5Pro版本重磅發(fā)布:性能大幅提升,價格更低
臨近春節(jié),國內(nèi)AI廠商競爭激烈,豆包大模型率先發(fā)布1.5Pro版本,帶來多項重大升級,為開發(fā)者和用戶帶來福音。
核心升級:性能全面提升,成本大幅降低
1.5Pro版本包含基礎(chǔ)模型Doubao-1.5-pro (32k和256k上下文長度)、新版視覺理解模型Doubao-1.5-vision-pro和實時語音模型Doubao-1.5-realtime-voice-pro,以及輕量級模型Doubao-1.5-lite。該版本在多項公開評測基準上達到全球領(lǐng)先水平,基礎(chǔ)能力和多模態(tài)能力均顯著增強,且完全基于自主數(shù)據(jù)生產(chǎn)體系訓練,未采用任何其他模型生成的數(shù)據(jù)。
在成本方面,1.5Pro版本性價比極高。32k上下文長度的模型處理100萬token僅需8毛錢,輕量級模型Doubao-1.5-lite更便宜。火山引擎提供API服務(wù)的Doubao-1.5-pro擁有高達50%的毛利率。
實測效果:邏輯推理、多模態(tài)能力卓越
機器之心對1.5Pro版本進行了實測,其在邏輯推理題(真話者與說謊者)、數(shù)學題(高考題)和梗圖理解等方面表現(xiàn)出色,準確率高且速度快。基于Doubao-1.5-realtime-voice-pro的實時語音功能,表現(xiàn)力也得到質(zhì)的飛躍,能夠?qū)崿F(xiàn)擬人化、情緒理解和情感表達。
技術(shù)創(chuàng)新:稀疏MoE架構(gòu)與高效訓練推理
Doubao-1.5-pro采用稀疏MoE架構(gòu),在保持模型性能的同時降低了算力需求。團隊從稀疏度Scaling Law出發(fā),確定性能和效率平衡的稀疏比例,實現(xiàn)了“小打大”,性能杠桿達到7倍,超越了LLaMA-3.1-405B等超大規(guī)模稠密預(yù)訓練模型。
在訓練階段,團隊設(shè)計了一套高度自主的數(shù)據(jù)生產(chǎn)體系,深度融合了高效標注與模型自提升技術(shù),沒有使用任何第三方模型生成的數(shù)據(jù)。在SFT、Reward Model和RL階段也進行了技術(shù)創(chuàng)新與優(yōu)化,充分發(fā)揮真實數(shù)據(jù)的優(yōu)勢。
在推理階段,團隊針對不同計算象限進行高效結(jié)合異構(gòu)硬件與不同的低精度優(yōu)化策略,實現(xiàn)了低延遲與吞吐量提升并舉,降低了總成本。
全模態(tài)能力升級:視覺和語音交互能力增強
在視覺多模態(tài)方面,通過技術(shù)升級,模型在視覺推理、文字文檔識別、細粒度信息理解和指令遵循等方面能力顯著增強,原生支持任意分辨率和長寬比的圖片輸入。在語音模態(tài)方面,團隊提出了新的端到端Speech2Speech框架,實現(xiàn)了語音理解生成端到端,在語音對話效果上相比傳統(tǒng)方式有質(zhì)的飛躍。
開發(fā)者友好:低門檻、高效率的開發(fā)平臺
豆包大模型已在豆包APP灰度上線,開發(fā)者可在火山引擎直接調(diào)用API。火山引擎進一步優(yōu)化了基于豆包大模型開發(fā)和部署應(yīng)用的流程,降低了開發(fā)門檻,讓開發(fā)者更輕松地將創(chuàng)意變成產(chǎn)品和服務(wù)。豆包大模型的不同版本可滿足不同應(yīng)用場景的需求。
未來展望:深度思考模式與智能體應(yīng)用
豆包大模型團隊正在研發(fā)“Doubao深度思考模式”,其推理模型Doubao-1.5-pro-AS1-Preview在AIME基準上超過o1-preview和o1。團隊認為,豆包大模型已為“智能體之年”做好準備,將在AI應(yīng)用爆發(fā)中占據(jù)主導地位。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺