AIGC動態歡迎閱讀
原標題:谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途
關鍵字:數據,圖像,模型,報告,表征
文章來源:新智元
內容字數:5078字
內容摘要:
新智元報道編輯:桃子
【新智元導讀】數據獲取最新解,便是從生成模型中學習。獲取高質量數據,已經成為當前大模型訓練的一大瓶頸。
前幾天,OpenAI被《紐約時報》,并要求索賠數十億美元。訴狀中,列舉了GPT-4抄襲的多項罪證。
甚至,《紐約時報》還呼吁摧毀幾乎所有的GPT等大模型。
一直以來,AI界多位大佬認為「合成數據」或許是解決這個問題的最優解。
此前,谷歌團隊還提出了用LLM代替人類標記偏好的方法RLAIF,效果甚至不輸人類。
現如今,谷歌MIT的研究人員發現,從大模型中學習可以得到使用真實數據訓練的最佳模型的表征。
這一最新方法稱SynCLR,一種完全從合成圖像和合成描述學習虛擬表征的方法,無需任何真實數據。
論文地址:https://arxiv.org/abs/2312.17742
實驗結果表明,通過SynCLR方法學習到的表征,能夠與OpenAI的CLIP在ImageNet 上的傳輸效果一樣好。
從生成模型中學習目前表現最好的「視覺表征」學習方法依賴于大規模的實際數據集。然而,真實數據的收集卻有不少的困難。
為了降低收集數據的成本,研究人員本文中提出了一個問題:
從現成
原文鏈接:谷歌MIT最新研究證明:高質量數據獲取不難,大模型就是歸途
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...