“大海撈針”out！“數(shù)星星”成測長文本能力更精準方法，來自鵝廠

AIGC動態(tài)1年前 (2024)發(fā)布量子位

AIGC動態(tài)歡迎閱讀

原標題：“大海撈針”out！“數(shù)星星”成測長文本能力更精準方法，來自鵝廠
關鍵字：模型,騰訊,星星,測試,研究人員
文章來源：量子位
內容字數(shù)：4579字

內容摘要：

克雷西發(fā)自凹非寺量子位 | 公眾號 QbitAI大模型長文本能力測試，又有新方法了！
騰訊MLPD實驗室，用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測試。
相比之下，新方法更注重對模型處理長依賴關系能力的考察，對模型的評估更加全面精準。
利用這種方法，研究人員對GPT-4和國內知名的Kimi Chat進行了“數(shù)星星”測試。
結果，在不同的實驗條件下，兩款模型各有勝負，但都體現(xiàn)出了很強的長文本能力。
△橫軸系以2為底的對數(shù)坐標那么，“數(shù)星星”究竟是怎樣的一種測試呢？
比“大海撈針”更加精準首先，研究人員選擇了一段長文本做為上下文，測試過程中長度逐漸遞增，最大為128k。
然后，根據(jù)不同的測試難度需求，整段文本會被劃分成N段，并向其中插入M個包含“星星”的句子。
實驗過程中，研究人員選擇了《紅樓夢》作為上下文文本，向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子，每個句子中的x都各不相同。
然后，模型會被要求找到所有這樣的句子，并以JSON格式輸出其中所有的數(shù)字，且只輸出數(shù)字。
得到模型的輸出之后，研究人員會將這些數(shù)字和Ground Truth進行對比，最終計算出模型輸出的正確率。

原文鏈接：“大海撈針”out！“數(shù)星星”成測長文本能力更精準方法，來自鵝廠