B站輕量級大語言模型index-1.9B深入解析
AIGC動態(tài)歡迎閱讀
原標題:B站輕量級大語言模型index-1.9B深入解析
關鍵字:數(shù)據(jù),模型,階段,效果,指令
文章來源:智猩猩AGI
內(nèi)容字數(shù):0字
內(nèi)容摘要:
直播預告 |「智猩猩AIGC視頻生成公開課 魔琺科技專場」正式開講啦~8月13日晚7點開講,魔琺科技市場負責人李韻將直播講解《AIGC時代,企業(yè)級視頻生成的挑戰(zhàn)與實踐》,內(nèi)容涵蓋一站式3D視頻創(chuàng)作平臺與行業(yè)應用、從0到1,生成一個視頻產(chǎn)品演示,歡迎掃名~bilibili發(fā)布的Index-1.9B包含:
Index-1.9B base:在2.8T語料訓練的基模型
Index-1.9B pure:部分數(shù)據(jù)和base不同,其他相同
Index-1.9B chat:基于base進行SFT和DPO后的模型
Index-1.9B character:在chat的基礎上用RAG+fewshots提供角色扮演的能力
下面看下細節(jié)。
01模型(1)模型深度
目前業(yè)界普遍的認知是模型深度比寬度對效果的影響更大(相同參數(shù)下)。對比層數(shù)分別為36層和9層,總參數(shù)都為1.01B的模型,結果如下圖,36層模型(base)效果確實更好。需要注意的是,相同模型參數(shù)量下,層數(shù)更多的模型會有更多的activation(與L * hidden size成正比),因此會需要更多顯存。
(2)Norm-Head
模型不同層
聯(lián)系作者
文章來源:智猩猩AGI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...