<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

        AIGC動態2年前 (2023)發布 智東西
        635 0 0

        艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

        迄今為止最大的開源文本數據集。編譯|香草
        編輯|李水青
        智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發布用于訓練大型語言模型(LLM)的文本數據集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數據集。

        ▲按子集劃分的Dolma數據屬性概覽

        在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發的機密。AI2在博客中稱,公司希望通過公開透明化其數據集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發等工作。
        01.
        全透明構建700億參數大模型,2024年推出


        AI2由已故微軟聯合創始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規模自然語言處理(NLP)系統的研究。AI2稱將發布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構建OLMo。OLMo將擁有700億級別的參數規模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數據集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數據。AI2認為理想的數據集應該滿足開放性、代表性、規模性、可復現性以及風險規避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數據卻是保密的。AI2認為需要扭轉這一趨勢,讓數據集可以免費使用并接受監督,也讓其他研究人員有機會在此基礎上建立更好版本的數據集。為了提供可復現的條件,AI2將公開在準備數據集過程中使用到的所有開發工具。

        ▲AI2統計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開

        盡管OpenAI和Meta等公司公布了用于構建語言模型的數據集的部分重要統計數據,但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數據的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數據集和模型更加不透明,難以研究或復現。
        02.
        保證Dolma數據集質量,AI2采取四項原則


        在訓練語料庫時,可選擇的數據非常多,其數據量幾乎是一個天文數字。對此,AI2使用了四項原則來協助選擇數據,分別是遵循現有做法、合理運用評估套件、傾向于協助實現核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內容如下:首先,通過匹配用于創建其他語言數據集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現有的或是正在開發的LLM。其次,在做出直接影響其中一項任務的數據相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數據集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據其反饋評估了數據設計決策從而規避可能的風險。
        03.
        業界最大公開文本數據集,3萬億Tokens超Llama 2


        與市面上已經公開的數據集相比,Dolma主要有兩點不同。首先,它比其他開放數據集規模大很多。

        ▲Dolma與其他公開數據集的屬性對比

        由表可見,除Dolma外,目前公開數據集中數據量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數據量是其兩倍多。此外,Llama 2訓練所使用的數據集為2萬億Tokens規模,但并未公開。GPT-3訓練使用的數據集規模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規定了如何使用、安裝和創建衍生品。根據許可,研究人員須遵守:1、提供聯系信息,并說明Dolma的預期用途;2、公開基于Dolma創建的任何衍生產品;3、遵循ImpACT分發衍生產品;4、不將Dolma用于一系列被禁止的用途,如軍事監控或生成虛假信息。
        04.
        結語:開放與透明為研究者提供新的探索空間


        AI2發布的Dolma數據集是迄今為止最大的開放文本數據集,為訓練大型語言模型提供了巨大的資源。在遵循風險規避等準則的前提下,選取了盡量多來源和種類的數據,達到3萬億Tokens級別。Dolma的公開透明化舉措開創了大型數據集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數據集的基礎上進行再研究和開發,有助于推動產業的開放性和合作性發展。來源:艾倫AI研究所官方博客(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


        2023全球AI芯片峰會預告

        9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業協會副理事長、IEEE Fellow魏少軍,AMD人工智能事業部高級總監王宏強,后摩智能聯合創始人、研發副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業務線總經理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。

        智東西
        智能產業第一媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。 公眾號 該公眾號已被封禁

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久亚洲精品AB无码播放| 亚洲国产精品成人精品软件| 亚洲爱情岛论坛永久| 四虎成人精品国产永久免费无码 | 久久久久国色AV免费观看| 十九岁在线观看免费完整版电影| 久久精品女人天堂AV免费观看| 国产精品嫩草影院免费| 中文字幕亚洲色图| 成人午夜免费视频| 亚洲日韩精品无码专区网站| 精品丝袜国产自在线拍亚洲| 亚洲第一视频在线观看免费| 性色av无码免费一区二区三区| 国产.亚洲.欧洲在线| 在线观看无码的免费网站| 久久精品国产亚洲一区二区| 国产综合激情在线亚洲第一页| 中文字幕视频免费| 中文字幕不卡亚洲| 国产精品久久亚洲一区二区| 亚洲AV无码一区二三区| 亚洲成av人片在线天堂无| 91精品国产免费久久久久久青草| 黑人精品videos亚洲人| 一级毛片aaaaaa视频免费看| 国产又黄又爽又刺激的免费网址 | 国产精品玖玖美女张开腿让男人桶爽免费看 | 亚洲一级Av无码毛片久久精品| 中文字幕免费不卡二区 | 亚洲国产精品无码av| h片在线免费观看| 亚洲av福利无码无一区二区| 亚洲综合免费视频| 久久久久亚洲精品影视| 国产精品免费网站| 无码的免费不卡毛片视频| 久久精品国产亚洲AV麻豆网站| 在线观看免费播放av片| 亚洲伦理中文字幕| 国产亚洲精品免费视频播放|