<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        艾倫AI推出業(yè)界最大文本數(shù)據(jù)集,包含3萬億Tokens,超過Llama 2

        AIGC動態(tài)2年前 (2023)發(fā)布 智東西
        635 0 0

        艾倫AI推出業(yè)界最大文本數(shù)據(jù)集,包含3萬億Tokens,超過Llama 2

        迄今為止最大的開源文本數(shù)據(jù)集。編譯|香草
        編輯|李水青
        智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發(fā)布用于訓練大型語言模型(LLM)的文本數(shù)據(jù)集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數(shù)據(jù)集。

        ▲按子集劃分的Dolma數(shù)據(jù)屬性概覽

        在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發(fā)的機密。AI2在博客中稱,公司希望通過公開透明化其數(shù)據(jù)集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發(fā)等工作。
        01.
        全透明構(gòu)建700億參數(shù)大模型,2024年推出


        AI2由已故微軟聯(lián)合創(chuàng)始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創(chuàng)建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規(guī)模自然語言處理(NLP)系統(tǒng)的研究。AI2稱將發(fā)布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構(gòu)建OLMo。OLMo將擁有700億級別的參數(shù)規(guī)模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數(shù)據(jù)集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數(shù)據(jù)。AI2認為理想的數(shù)據(jù)集應該滿足開放性、代表性、規(guī)模性、可復現(xiàn)性以及風險規(guī)避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數(shù)據(jù)卻是保密的。AI2認為需要扭轉(zhuǎn)這一趨勢,讓數(shù)據(jù)集可以免費使用并接受監(jiān)督,也讓其他研究人員有機會在此基礎上建立更好版本的數(shù)據(jù)集。為了提供可復現(xiàn)的條件,AI2將公開在準備數(shù)據(jù)集過程中使用到的所有開發(fā)工具。

        ▲AI2統(tǒng)計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開

        盡管OpenAI和Meta等公司公布了用于構(gòu)建語言模型的數(shù)據(jù)集的部分重要統(tǒng)計數(shù)據(jù),但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數(shù)據(jù)的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數(shù)據(jù)集和模型更加不透明,難以研究或復現(xiàn)。
        02.
        保證Dolma數(shù)據(jù)集質(zhì)量,AI2采取四項原則


        在訓練語料庫時,可選擇的數(shù)據(jù)非常多,其數(shù)據(jù)量幾乎是一個天文數(shù)字。對此,AI2使用了四項原則來協(xié)助選擇數(shù)據(jù),分別是遵循現(xiàn)有做法、合理運用評估套件、傾向于協(xié)助實現(xiàn)核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內(nèi)容如下:首先,通過匹配用于創(chuàng)建其他語言數(shù)據(jù)集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現(xiàn)有的或是正在開發(fā)的LLM。其次,在做出直接影響其中一項任務的數(shù)據(jù)相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數(shù)據(jù)集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據(jù)其反饋評估了數(shù)據(jù)設計決策從而規(guī)避可能的風險。
        03.
        業(yè)界最大公開文本數(shù)據(jù)集,3萬億Tokens超Llama 2


        與市面上已經(jīng)公開的數(shù)據(jù)集相比,Dolma主要有兩點不同。首先,它比其他開放數(shù)據(jù)集規(guī)模大很多。

        ▲Dolma與其他公開數(shù)據(jù)集的屬性對比

        由表可見,除Dolma外,目前公開數(shù)據(jù)集中數(shù)據(jù)量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數(shù)據(jù)量是其兩倍多。此外,Llama 2訓練所使用的數(shù)據(jù)集為2萬億Tokens規(guī)模,但并未公開。GPT-3訓練使用的數(shù)據(jù)集規(guī)模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協(xié)作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規(guī)定了如何使用、安裝和創(chuàng)建衍生品。根據(jù)許可,研究人員須遵守:1、提供聯(lián)系信息,并說明Dolma的預期用途;2、公開基于Dolma創(chuàng)建的任何衍生產(chǎn)品;3、遵循ImpACT分發(fā)衍生產(chǎn)品;4、不將Dolma用于一系列被禁止的用途,如軍事監(jiān)控或生成虛假信息。
        04.
        結(jié)語:開放與透明為研究者提供新的探索空間


        AI2發(fā)布的Dolma數(shù)據(jù)集是迄今為止最大的開放文本數(shù)據(jù)集,為訓練大型語言模型提供了巨大的資源。在遵循風險規(guī)避等準則的前提下,選取了盡量多來源和種類的數(shù)據(jù),達到3萬億Tokens級別。Dolma的公開透明化舉措開創(chuàng)了大型數(shù)據(jù)集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數(shù)據(jù)集的基礎上進行再研究和開發(fā),有助于推動產(chǎn)業(yè)的開放性和合作性發(fā)展。來源:艾倫AI研究所官方博客(本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權,禁止隨意轉(zhuǎn)載。)


        2023全球AI芯片峰會預告

        9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業(yè)協(xié)會副理事長、IEEE Fellow魏少軍,AMD人工智能事業(yè)部高級總監(jiān)王宏強,后摩智能聯(lián)合創(chuàng)始人、研發(fā)副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業(yè)務線總經(jīng)理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。

        智東西
        智能產(chǎn)業(yè)第一媒體!智東西專注報道人工智能主導的前沿技術發(fā)展,和技術應用帶來的千行百業(yè)產(chǎn)業(yè)升級。聚焦智能變革,服務產(chǎn)業(yè)升級。 公眾號 該公眾號已被封禁

        閱讀原文
        ? 版權聲明
        Trae官網(wǎng)

        相關文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲AV色吊丝无码| 亚洲第一页在线播放| 亚洲丁香婷婷综合久久| 国产四虎免费精品视频| 337p欧洲亚洲大胆艺术| 久视频精品免费观看99| 亚洲小视频在线播放| 国产成在线观看免费视频| 亚洲国产日韩精品| 免费看大美女大黄大色| 午夜亚洲国产精品福利| 亚洲天堂免费在线视频| 最近免费中文字幕中文高清 | 成人毛片18女人毛片免费96 | 男男gvh肉在线观看免费| 免费无遮挡无码永久在线观看视频| 亚洲无码一区二区三区| 免费国产在线观看不卡| 一个人看的www在线免费视频 | 一个人看的www在线观看免费| 久久亚洲国产成人影院| 国产成人精品免费直播| 国产免费人成视频尤勿视频| 99久久亚洲精品无码毛片| 成年免费大片黄在线观看岛国| 亚洲av无码偷拍在线观看| 亚洲综合AV在线在线播放| 91在线手机精品免费观看| 亚洲精品久久无码| 亚洲综合无码精品一区二区三区| 久久久久久AV无码免费网站| 亚洲高清有码中文字| 久久久无码精品亚洲日韩软件| 免费不卡在线观看AV| 亚洲av无码一区二区三区四区| 亚洲精品乱码久久久久久中文字幕| 亚洲免费视频网址| 污网站免费在线观看| 亚洲欧洲国产精品久久| 亚洲免费视频一区二区三区| 蜜桃AV无码免费看永久|