突破萬字長文輸出瓶頸!清華大學開源 LongWriter-6k 數據集;7 個 CCF A 類頂會即將截稿
AIGC動態歡迎閱讀
原標題:突破萬字長文輸出瓶頸!清華大學開源 LongWriter-6k 數據集;7 個 CCF A 類頂會即將截稿
關鍵字:解讀,數據,報告,圖像,模型
文章來源:HyperAI超神經
內容字數:0字
內容摘要:
當前的長上下文大模型雖能處理海量文本的輸入,但由于長輸出示例的匱乏,使其在生成長篇內容時卻力不從心。為解決這個問題,清華大學的研究團隊構建了 LongWriter-6k 數據集,能夠將大模型的最大輸出窗口大小擴展至 10,000+ 字!
借助 LongWriter-6k 訓練的模型,不僅在小說創作中可以生成情節跌宕起伏、篇幅超長的精彩小說,讓讀者沉浸在一個宏大的文學世界中;在學術研究方面,它還能夠生成詳盡的研究報告和論文綜述,為科研人員提供豐富的參考資料。
hyper.ai 官網現已上線「LongWriter-6k 長上下文輸出數據集」,還支持在線使用,下拉文章獲取鏈接~
8 月 19 日-8 月 23 日,hyper.ai 官網更新速覽:
*優質公共數據集:10 個
* 優質教程精選:2 個
* 社區文章精選:2 篇
* 熱門百科詞條:5 條
* 9 月截稿頂會:7 個
訪問官網:hyper.ai公共數據集精選1.LongWriter-6k 長上下文輸出數據集
該數據集包含 6k 篇 SFT 數據,輸出長度為 2k-32k 字(包括英文和中文),可支持訓練 LLM,將其最大輸出窗口大
原文鏈接:突破萬字長文輸出瓶頸!清華大學開源 LongWriter-6k 數據集;7 個 CCF A 類頂會即將截稿
聯系作者
文章來源:HyperAI超神經
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...