“大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠
AIGC動態(tài)歡迎閱讀
原標題:“大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠
關鍵字:模型,騰訊,星星,測試,研究人員
文章來源:量子位
內容字數(shù):4579字
內容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號 QbitAI大模型長文本能力測試,又有新方法了!
騰訊MLPD實驗室,用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測試。
相比之下,新方法更注重對模型處理長依賴關系能力的考察,對模型的評估更加全面精準。
利用這種方法,研究人員對GPT-4和國內知名的Kimi Chat進行了“數(shù)星星”測試。
結果,在不同的實驗條件下,兩款模型各有勝負,但都體現(xiàn)出了很強的長文本能力。
△橫軸系以2為底的對數(shù)坐標那么,“數(shù)星星”究竟是怎樣的一種測試呢?
比“大海撈針”更加精準首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為128k。
然后,根據(jù)不同的測試難度需求,整段文本會被劃分成N段,并向其中插入M個包含“星星”的句子。
實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子,每個句子中的x都各不相同。
然后,模型會被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數(shù)字,且只輸出數(shù)字。
得到模型的輸出之后,研究人員會將這些數(shù)字和Ground Truth進行對比,最終計算出模型輸出的正確率。
原文鏈接:“大海撈針”out!“數(shù)星星”成測長文本能力更精準方法,來自鵝廠
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...