谷歌MIT最新研究證明：高質量數據獲取不難，大模型就是歸途

AIGC動態1年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：谷歌MIT最新研究證明：高質量數據獲取不難，大模型就是歸途
關鍵字：數據,圖像,模型,報告,表征
文章來源：新智元
內容字數：5078字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】數據獲取最新解，便是從生成模型中學習。獲取高質量數據，已經成為當前大模型訓練的一大瓶頸。
前幾天，OpenAI被《紐約時報》，并要求索賠數十億美元。訴狀中，列舉了GPT-4抄襲的多項罪證。
甚至，《紐約時報》還呼吁摧毀幾乎所有的GPT等大模型。
一直以來，AI界多位大佬認為「合成數據」或許是解決這個問題的最優解。
此前，谷歌團隊還提出了用LLM代替人類標記偏好的方法RLAIF，效果甚至不輸人類。
現如今，谷歌MIT的研究人員發現，從大模型中學習可以得到使用真實數據訓練的最佳模型的表征。
這一最新方法稱SynCLR，一種完全從合成圖像和合成描述學習虛擬表征的方法，無需任何真實數據。
論文地址：https://arxiv.org/abs/2312.17742
實驗結果表明，通過SynCLR方法學習到的表征，能夠與OpenAI的CLIP在ImageNet 上的傳輸效果一樣好。
從生成模型中學習目前表現最好的「視覺表征」學習方法依賴于大規模的實際數據集。然而，真實數據的收集卻有不少的困難。
為了降低收集數據的成本，研究人員本文中提出了一個問題：
從現成

原文鏈接：谷歌MIT最新研究證明：高質量數據獲取不難，大模型就是歸途