AIGC動態歡迎閱讀
原標題:今日arXiv最熱NLP大模型論文:IBM研究院提出Genie方法,自動生成高質量數據集
關鍵字:數據,解讀,模型,問題,報告
文章來源:夕小瑤科技說
內容字數:9235字
內容摘要:
夕小瑤科技說 原創編輯 | 謝年年數據是大模型的基石。但傳統的數據集創建方法通常依賴人工,耗時耗力成本高,另外數據集的來源復雜,噪聲大,比如新聞媒體稿或者社交媒體,數據質量難以保證。為此,IBM研究院了一種名為Genie的新方法,可以自動生成高質量的數據。
作者生成了三個大規模的合成數據,包含長篇問答(LFQA)、摘要和信息提取(IE)。通過人類評估,合成數據是自然且高質量的,可與人類標注數據相媲美的。此外,作者還將基于合成數據
訓練的模型與基于人工撰寫的數據訓練的模型進行比較,其中,LFQA使用ELI5和ASQA數據,摘要使用CNN-DailyMail數據。結果顯示合成數據訓練模甚至超過基于人工生成數據訓練的模型。
聲明:本期論文解讀非人類撰寫,全文由賽博馬良「AI論文解讀達人」智能體自主完成,經人工審核、配圖后發布。
公眾號「夕小瑤科技說」后臺回復“智能體內測”獲取智能體內測邀請鏈接!
論文標題: Genie: Achieving Human Parity In Content-Grounded Datasets Generation
論文鏈接為: https://arxiv.or
原文鏈接:今日arXiv最熱NLP大模型論文:IBM研究院提出Genie方法,自動生成高質量數據集
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業洞見。聚集25萬AI一線開發者、互聯網中高管和機構投資人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備行業嗅覺與報道深度。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...