大模型長(zhǎng)上下文運(yùn)行的關(guān)鍵問題
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:大模型長(zhǎng)上下文運(yùn)行的關(guān)鍵問題
關(guān)鍵字:上下文,數(shù)據(jù),長(zhǎng)度,注意力,模型
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):20128字
內(nèi)容摘要:上下文長(zhǎng)度的增加是 LLM 的一個(gè)顯著發(fā)展趨勢(shì)。過去一年,幾種長(zhǎng)上下文語言模型陸續(xù)問世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic 的 Claude(100k上下文)等。然而,擴(kuò)大 Transformer 的上下文長(zhǎng)度是一個(gè)挑戰(zhàn),因?yàn)槠浜诵牡淖⒁饬釉跁r(shí)間復(fù)雜度和空間復(fù)雜度與輸入序列長(zhǎng)度的平方成正比。一年前,來自斯坦福大學(xué)、紐約州立大學(xué)布法羅…
原文鏈接:點(diǎn)此閱讀原文:大模型長(zhǎng)上下文運(yùn)行的關(guān)鍵問題
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無評(píng)論...