AIGC動態歡迎閱讀
原標題:弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書
關鍵字:知乎,弱智,數據,中文,模型
文章來源:量子位
內容字數:4248字
內容摘要:
夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAI離大譜了,弱智吧登上正經AI論文,還成了最好的中文訓練數據??
具體來說,使用弱智吧數據訓練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研究團隊精心挑選的數據集。
在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。
沒錯,論文中的Ruozhiba就是指百度貼吧弱智吧,一個充滿荒謬、離奇、不合常理發言的中文社區,畫風通常是這樣的:
最離譜的是,弱智吧AI代碼能力也超過了使用專業技術問答社區思否數據訓練的AI,這下吧友自己都鬧不明白了。
其他平臺圍觀網友也紛紛蚌埠住。
這項研究來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等眾多高校、研究機構聯合團隊。
作者之一也現身評論區,透露使用弱智吧數據訓練AI屬于靈機一動,以前只用來測試。
弱智吧數據究竟如何達成這一成就,具體到論文中看。
弱智發言成指令微調神器這項研究起初為解決中文大模型訓練中的諸多問題:
中文數據集很多是從英文翻譯過來的,沒有很好地契合中文的語言習慣和文化背景
不少數據集是用AI生成的,質量難以保證,容易出現事實性錯誤
即使是人工標注
原文鏈接:弱智吧竟成最佳中文AI訓練數據?!中科院等:8項測試第一,遠超知乎豆瓣小紅書
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...