弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)?!中科院等:8項(xiàng)測(cè)試第一,遠(yuǎn)超知乎豆瓣小紅書
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)?!中科院等:8項(xiàng)測(cè)試第一,遠(yuǎn)超知乎豆瓣小紅書
關(guān)鍵字:知乎,弱智,數(shù)據(jù),中文,模型
文章來源:量子位
內(nèi)容字?jǐn)?shù):4248字
內(nèi)容摘要:
夢(mèng)晨 西風(fēng) 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI離大譜了,弱智吧登上正經(jīng)AI論文,還成了最好的中文訓(xùn)練數(shù)據(jù)??
具體來說,使用弱智吧數(shù)據(jù)訓(xùn)練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺(tái),甚至是研究團(tuán)隊(duì)精心挑選的數(shù)據(jù)集。
在問答、頭腦風(fēng)暴、分類、生成、總結(jié)、提取等8項(xiàng)測(cè)試中取得最高分。
沒錯(cuò),論文中的Ruozhiba就是指百度貼吧弱智吧,一個(gè)充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū),畫風(fēng)通常是這樣的:
最離譜的是,弱智吧AI代碼能力也超過了使用專業(yè)技術(shù)問答社區(qū)思否數(shù)據(jù)訓(xùn)練的AI,這下吧友自己都鬧不明白了。
其他平臺(tái)圍觀網(wǎng)友也紛紛蚌埠住。
這項(xiàng)研究來自中科院深圳先進(jìn)技術(shù)研究院、中科院自動(dòng)化研究所,滑鐵盧大學(xué)等眾多高校、研究機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)。
作者之一也現(xiàn)身評(píng)論區(qū),透露使用弱智吧數(shù)據(jù)訓(xùn)練AI屬于靈機(jī)一動(dòng),以前只用來測(cè)試。
弱智吧數(shù)據(jù)究竟如何達(dá)成這一成就,具體到論文中看。
弱智發(fā)言成指令微調(diào)神器這項(xiàng)研究起初為解決中文大模型訓(xùn)練中的諸多問題:
中文數(shù)據(jù)集很多是從英文翻譯過來的,沒有很好地契合中文的語言習(xí)慣和文化背景
不少數(shù)據(jù)集是用AI生成的,質(zhì)量難以保證,容易出現(xiàn)事實(shí)性錯(cuò)誤
即使是人工標(biāo)注
原文鏈接:弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)?!中科院等:8項(xiàng)測(cè)試第一,遠(yuǎn)超知乎豆瓣小紅書
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破