AIGC動態歡迎閱讀
內容摘要:
9月6-7日,2024全球AI芯片峰會將在北京召開。目前,AMD人工智能事業部高級總監王宏強,清華大學交叉信息研究院助理教授、北極雄芯創始人馬愷聲,珠海芯動力創始人兼CEO李原,“吳文俊2023人工智能芯片專項獎”第一完、鋒行致遠創始人兼CEO孫唐等嘉賓已確認出席。歡迎報名或購票參會~果然傳的消息都是真的,meta在24號凌晨發布了llama 3的405B版本,這次還是做一個技術報告解讀。
值得一提的是,在技術報告的開頭,meta特意強調了一個 Managing complexity,大意是管控復雜度。
為什么沒用MoE卻弄個405B的dense?為什么沒用PPO只用DPO?
meta給的解釋是:Managing complexity,大意就是這樣簡單吧…
評測結果如下,這個結果跟當初網上傳的那個版本還是有一定出入的,沒有到摁著GPT4o錘的程度。
況且,根據GPT4o的速度來看,參數量要遠遠小于一個405B的dense,高下立判。不過這個無可厚非,畢竟GPT4也挺慢的雖然如此,但是llama3 405B中間有許多實用的trick還是值得我們學習的,整個的畫風有點像打比賽刷榜那
原文鏈接:LLama 405B 技術報告解讀
聯系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...