AIGC動態歡迎閱讀
原標題:「AI數據荒」雪上加霜!MIT:網頁數據的公開共享正走向衰落
關鍵字:數據,網站,網頁,,內容
文章來源:新智元
內容字數:0字
內容摘要:
新智元報道編輯:喬楊
【新智元導讀】人工智能系統依靠充足、高質量的訓練數據來獲得高性能,但MIT等機構最近的一項研究發現,曾經免費提供的數據在多個方面變得越來越難獲取。隨著GenAI產品開發和研究變得越來越廣泛,訓練數據的抓取許可也越來越成為受關注的話題。
最近,吳恩達在網站The Batch上提及了一篇有關數據許可的研究,其結果似乎讓本就迫近的「AI數據荒」雪上加霜。
研究人員發現,C4、RefineWeb、Dolma等開源數據集所爬取的各種網站正在快速在收緊他們的許可協議,曾經觸手可及的開放數據越來越難以獲取。
這不僅會影響商用AI模型的訓練,也會對學術界和非營利機構的研究造成阻礙。
該項目的4位團隊主管分別來自MIT Media Lab、Wellesley學院、AI初創公司Raive等機構。
論文地址:https://www.dataprovenance.org/consent-in-cr-paper
主持該研究的是非營利組織The Data Provenance Initiative,由來自世界各地的AI研究人員志愿加入組成。論文所涉及的數據標注以及分析全過程已經全部
原文鏈接:「AI數據荒」雪上加霜!MIT:網頁數據的公開共享正走向衰落
聯系作者
文章來源:新智元
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...