谷歌MIT最新研究證明:高質(zhì)量數(shù)據(jù)獲取不難,大模型就是歸途
AIGC動態(tài)歡迎閱讀
原標(biāo)題:谷歌MIT最新研究證明:高質(zhì)量數(shù)據(jù)獲取不難,大模型就是歸途
關(guān)鍵字:數(shù)據(jù),圖像,模型,報告,表征
文章來源:新智元
內(nèi)容字?jǐn)?shù):5078字
內(nèi)容摘要:
新智元報道編輯:桃子
【新智元導(dǎo)讀】數(shù)據(jù)獲取最新解,便是從生成模型中學(xué)習(xí)。獲取高質(zhì)量數(shù)據(jù),已經(jīng)成為當(dāng)前大模型訓(xùn)練的一大瓶頸。
前幾天,OpenAI被《紐約時報》,并要求索賠數(shù)十億美元。訴狀中,列舉了GPT-4抄襲的多項罪證。
甚至,《紐約時報》還呼吁摧毀幾乎所有的GPT等大模型。
一直以來,AI界多位大佬認(rèn)為「合成數(shù)據(jù)」或許是解決這個問題的最優(yōu)解。
此前,谷歌團(tuán)隊還提出了用LLM代替人類標(biāo)記偏好的方法RLAIF,效果甚至不輸人類。
現(xiàn)如今,谷歌MIT的研究人員發(fā)現(xiàn),從大模型中學(xué)習(xí)可以得到使用真實數(shù)據(jù)訓(xùn)練的最佳模型的表征。
這一最新方法稱SynCLR,一種完全從合成圖像和合成描述學(xué)習(xí)虛擬表征的方法,無需任何真實數(shù)據(jù)。
論文地址:https://arxiv.org/abs/2312.17742
實驗結(jié)果表明,通過SynCLR方法學(xué)習(xí)到的表征,能夠與OpenAI的CLIP在ImageNet 上的傳輸效果一樣好。
從生成模型中學(xué)習(xí)目前表現(xiàn)最好的「視覺表征」學(xué)習(xí)方法依賴于大規(guī)模的實際數(shù)據(jù)集。然而,真實數(shù)據(jù)的收集卻有不少的困難。
為了降低收集數(shù)據(jù)的成本,研究人員本文中提出了一個問題:
從現(xiàn)成
原文鏈接:谷歌MIT最新研究證明:高質(zhì)量數(shù)據(jù)獲取不難,大模型就是歸途
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時代。