LLama 405B 技術(shù)報告解讀
AIGC動態(tài)歡迎閱讀
原標(biāo)題:LLama 405B 技術(shù)報告解讀
關(guān)鍵字:模型,報告,數(shù)據(jù),階段,上下文
文章來源:智猩猩AGI
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
9月6-7日,2024全球AI芯片峰會將在北京召開。目前,AMD人工智能事業(yè)部高級總監(jiān)王宏強(qiáng),清華大學(xué)交叉信息研究院助理教授、北極雄芯創(chuàng)始人馬愷聲,珠海芯動力創(chuàng)始人兼CEO李原,“吳文俊2023人工智能芯片專項獎”第一完、鋒行致遠(yuǎn)創(chuàng)始人兼CEO孫唐等嘉賓已確認(rèn)出席。歡迎報名或購票參會~果然傳的消息都是真的,meta在24號凌晨發(fā)布了llama 3的405B版本,這次還是做一個技術(shù)報告解讀。
值得一提的是,在技術(shù)報告的開頭,meta特意強(qiáng)調(diào)了一個 Managing complexity,大意是管控復(fù)雜度。
為什么沒用MoE卻弄個405B的dense?為什么沒用PPO只用DPO?
meta給的解釋是:Managing complexity,大意就是這樣簡單吧…
評測結(jié)果如下,這個結(jié)果跟當(dāng)初網(wǎng)上傳的那個版本還是有一定出入的,沒有到摁著GPT4o錘的程度。
況且,根據(jù)GPT4o的速度來看,參數(shù)量要遠(yuǎn)遠(yuǎn)小于一個405B的dense,高下立判。不過這個無可厚非,畢竟GPT4也挺慢的雖然如此,但是llama3 405B中間有許多實用的trick還是值得我們學(xué)習(xí)的,整個的畫風(fēng)有點像打比賽刷榜那
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介: