迄今為止最大的開源文本數據集。編譯|香草
編輯|李水青
智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發布用于訓練大型語言模型(LLM)的文本數據集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數據集。
▲按子集劃分的Dolma數據屬性概覽
在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發的機密。AI2在博客中稱,公司希望通過公開透明化其數據集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發等工作。
01.
全透明構建700億參數大模型,2024年推出
AI2由已故微軟聯合創始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規模自然語言處理(NLP)系統的研究。AI2稱將發布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構建OLMo。OLMo將擁有700億級別的參數規模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數據集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數據。AI2認為理想的數據集應該滿足開放性、代表性、規模性、可復現性以及風險規避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數據卻是保密的。AI2認為需要扭轉這一趨勢,讓數據集可以免費使用并接受監督,也讓其他研究人員有機會在此基礎上建立更好版本的數據集。為了提供可復現的條件,AI2將公開在準備數據集過程中使用到的所有開發工具。
▲AI2統計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開
盡管OpenAI和Meta等公司公布了用于構建語言模型的數據集的部分重要統計數據,但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數據的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數據集和模型更加不透明,難以研究或復現。
02.
保證Dolma數據集質量,AI2采取四項原則
在訓練語料庫時,可選擇的數據非常多,其數據量幾乎是一個天文數字。對此,AI2使用了四項原則來協助選擇數據,分別是遵循現有做法、合理運用評估套件、傾向于協助實現核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內容如下:首先,通過匹配用于創建其他語言數據集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現有的或是正在開發的LLM。其次,在做出直接影響其中一項任務的數據相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數據集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據其反饋評估了數據設計決策從而規避可能的風險。
03.
業界最大公開文本數據集,3萬億Tokens超Llama 2
與市面上已經公開的數據集相比,Dolma主要有兩點不同。首先,它比其他開放數據集規模大很多。
▲Dolma與其他公開數據集的屬性對比
由表可見,除Dolma外,目前公開數據集中數據量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數據量是其兩倍多。此外,Llama 2訓練所使用的數據集為2萬億Tokens規模,但并未公開。GPT-3訓練使用的數據集規模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規定了如何使用、安裝和創建衍生品。根據許可,研究人員須遵守:1、提供聯系信息,并說明Dolma的預期用途;2、公開基于Dolma創建的任何衍生產品;3、遵循ImpACT分發衍生產品;4、不將Dolma用于一系列被禁止的用途,如軍事監控或生成虛假信息。
04.
結語:開放與透明為研究者提供新的探索空間
AI2發布的Dolma數據集是迄今為止最大的開放文本數據集,為訓練大型語言模型提供了巨大的資源。在遵循風險規避等準則的前提下,選取了盡量多來源和種類的數據,達到3萬億Tokens級別。Dolma的公開透明化舉措開創了大型數據集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數據集的基礎上進行再研究和開發,有助于推動產業的開放性和合作性發展。來源:艾倫AI研究所官方博客(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
2023全球AI芯片峰會預告
9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業協會副理事長、IEEE Fellow魏少軍,AMD人工智能事業部高級總監王宏強,后摩智能聯合創始人、研發副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業務線總經理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。
智東西
智能產業第一媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。 公眾號 該公眾號已被封禁