在線教程 | 1 分鐘生成萬字懸疑小說,LongWriter-glm4-9b 突破長文輸出瓶頸
AIGC動態歡迎閱讀
原標題:在線教程 | 1 分鐘生成萬字懸疑小說,LongWriter-glm4-9b 突破長文輸出瓶頸
關鍵字:數據,科學,模型,神經,頁面
文章來源:HyperAI超神經
內容字數:0字
內容摘要:
近年來,大語言模型 (LLM)在理解和生成復雜文本時展現出強大的能力,能夠處理高達 100,000 個 tokens 的輸入,但在生成超過 2,000 詞的連貫輸出時,往往會遇到困難。
主要的原因之一是因為 SFT(監督式微調)數據集長輸出樣本的稀缺性。研究表明,模型的最大輸出長度與其在 SFT 階段接觸的樣本長度有顯著的正相關性。換句話說,盡管模型已經學會了如何理解和處理長文本,但它們還沒有充分學習如何生成同樣長度的文本。
為了解決這一問題,清華大合智譜 AI 基于 AgentWrite 技術構建了名為 LongWriter-6k 的數據集,包含 6,000 個 SFT 數據樣本,輸出長度從 2k 到 32k 個單詞不等。該數據集目前已上線至 HyperAI超神經官網數據集版塊,支持一鍵 input。
數據集地址:
https://go.hyper.ai/77byR
隨后,該研究團隊還利用LongWriter-6k,基于 GLM-4-9B 進行訓練,得到了一個能夠生成超過 10,000 字連貫文本的模型 LongWriter-glm4-9b,顯著擴展了大型語言模型的輸出潛力,在文
原文鏈接:在線教程 | 1 分鐘生成萬字懸疑小說,LongWriter-glm4-9b 突破長文輸出瓶頸
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...