国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

AIGC動態2年前 (2023)發布 智東西
636 0 0

艾倫AI推出業界最大文本數據集,包含3萬億Tokens,超過Llama 2

迄今為止最大的開源文本數據集。編譯|香草
編輯|李水青
智東西8月21日消息,艾倫AI研究所(AI2)于8月19日在其官方博客發布用于訓練大型語言模型(LLM)的文本數據集Dolma,包含3萬億個Tokens(詞例),是迄今為止最大的開放文本數據集。

▲按子集劃分的Dolma數據屬性概覽

在AI競爭激烈的當下,大部分科技巨頭都傾向于保守自家大模型開發的機密。AI2在博客中稱,公司希望通過公開透明化其數據集及之后的大模型,幫助更多的研究者在此基礎上進一步進行研究和開發等工作。
01.
全透明構建700億參數大模型,2024年推出


AI2由已故微軟聯合創始人兼慈善家保羅·艾倫(Paul Allen)于2014年成立,致力于開展高影響力的AI研究和工程,宗旨是“AI為人類共同利益服務”(AI for the common good)。2017年,AI2推出了孵化器項目AI2 Incubator,孵化出被百度全資收購的自然語言處理公司Kitt.ai和被蘋果收購的AI圖像識別公司Xnor.ai等。自2023年3月以來,AI2一直在著手創建一個開放的生成語言模型AI2 OLMo(Open Language Model),旨在促進大規模自然語言處理(NLP)系統的研究。AI2稱將發布在整個項目中遵循的人工制品和記錄流程,以透明和開放的方式構建OLMo。OLMo將擁有700億級別的參數規模,預計于2024年初完成。此次公布的Dolma,便是用于OLMo的數據集,其名稱來源于“Data to feed OLMo’s Appetite”——為OLMo的“胃口”提供數據。AI2認為理想的數據集應該滿足開放性、代表性、規模性、可復現性以及風險規避性這五個標準。像GPT-4、Claude這樣的語言模型功能強大且用途廣泛,但其訓練數據卻是保密的。AI2認為需要扭轉這一趨勢,讓數據集可以免費使用并接受監督,也讓其他研究人員有機會在此基礎上建立更好版本的數據集。為了提供可復現的條件,AI2將公開在準備數據集過程中使用到的所有開發工具。

▲AI2統計的常見大模型相關屬性,其中“?”表示未公開,“~”表示部分公開

盡管OpenAI和Meta等公司公布了用于構建語言模型的數據集的部分重要統計數據,但其中很多信息都被視為專有信息。除了阻礙審查和改進等原因之外,還有人猜測,這種封閉的方式可能是由于數據的獲取不道德或不合法。在AI競爭激烈的背景下,大部分公司傾向于保守其模型訓練過程的秘密。但對于其他研究人員來說,這使得這些數據集和模型更加不透明,難以研究或復現。
02.
保證Dolma數據集質量,AI2采取四項原則


在訓練語料庫時,可選擇的數據非常多,其數據量幾乎是一個天文數字。對此,AI2使用了四項原則來協助選擇數據,分別是遵循現有做法、合理運用評估套件、傾向于協助實現核心研究方向的決策以及采取基于危害的方法來緩解風險。這四項原則內容如下:首先,通過匹配用于創建其他語言數據集的方法,使更廣泛的研究界能夠利用Dolma來間接研究現有的或是正在開發的LLM。其次,在做出直接影響其中一項任務的數據相關決策時,選擇能夠提高指標的干預措施。例如,Dolma中加入了文本,因為它能提高K-12(學前及中小學教育)科學知識任務的性能。再次,并非所有數據集決策都與基準性能有關,例如添加包含代碼的文檔會降低許多文本基準測試的性能。AI2傾向于為其主動或前瞻性研究加入更有用的決策。最后,通過與法律道德專家的交談,根據其反饋評估了數據設計決策從而規避可能的風險。
03.
業界最大公開文本數據集,3萬億Tokens超Llama 2


與市面上已經公開的數據集相比,Dolma主要有兩點不同。首先,它比其他開放數據集規模大很多。

▲Dolma與其他公開數據集的屬性對比

由表可見,除Dolma外,目前公開數據集中數據量最大的是RedPajama,為1.2萬億Tokens,被用于Llama的訓練。相比之下,Dolma的數據量是其兩倍多。此外,Llama 2訓練所使用的數據集為2萬億Tokens規模,但并未公開。GPT-3訓練使用的數據集規模為0.4萬億。其次,它遵循AI2為AI人工制品制定的許可證ImpACT,該許可證的名稱來自于AI2的四個核心價值觀:影響力(Impact)、責任(Accountability)、協作(Collaboration)和透明(Transparency)。它將人工制品劃分為低、中、高三個級別的風險,并規定了如何使用、安裝和創建衍生品。根據許可,研究人員須遵守:1、提供聯系信息,并說明Dolma的預期用途;2、公開基于Dolma創建的任何衍生產品;3、遵循ImpACT分發衍生產品;4、不將Dolma用于一系列被禁止的用途,如軍事監控或生成虛假信息。
04.
結語:開放與透明為研究者提供新的探索空間


AI2發布的Dolma數據集是迄今為止最大的開放文本數據集,為訓練大型語言模型提供了巨大的資源。在遵循風險規避等準則的前提下,選取了盡量多來源和種類的數據,達到3萬億Tokens級別。Dolma的公開透明化舉措開創了大型數據集開源的先河,在競爭激烈的AI領域,鼓勵其他研究人員在其數據集的基礎上進行再研究和開發,有助于推動產業的開放性和合作性發展。來源:艾倫AI研究所官方博客(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


2023全球AI芯片峰會預告

9月14-15日,2023全球AI芯片峰會(GACS 2023)將登陸深圳。清華大學教授、中國半導體行業協會副理事長、IEEE Fellow魏少軍,AMD人工智能事業部高級總監王宏強,后摩智能聯合創始人、研發副總裁陳亮,奎芯科技副總裁王曉陽,云天勵飛副總裁、芯片業務線總經理李愛軍、清華大學交叉信息研究院助理教授馬愷聲、珠海芯動力CEO李原等10+位嘉賓已確認參會和演講。歡迎報名。

智東西
智能產業第一媒體!智東西專注報道人工智能主導的前沿技術發展,和技術應用帶來的千行百業產業升級。聚焦智能變革,服務產業升級。 公眾號 該公眾號已被封禁

閱讀原文
? 版權聲明
蟬鏡AI數字人

相關文章

蟬鏡AI數字人

暫無評論

暫無評論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        色噜噜狠狠成人网p站| 免费人成在线不卡| 亚洲图片欧美视频| 欧美日韩色一区| 人人狠狠综合久久亚洲| 日韩三级在线观看| 国产黄人亚洲片| 综合网在线视频| 91.xcao| 国内成人免费视频| 综合久久久久久| 欧美另类高清zo欧美| 精品在线播放免费| 亚洲精品你懂的| 精品国产免费一区二区三区四区| 国产成人精品免费视频网站| 亚洲最新在线观看| 久久久另类综合| 欧美日韩国产一级| 99久久国产综合色|国产精品| 石原莉奈在线亚洲三区| 中文字幕亚洲成人| 精品成人私密视频| 欧美日韩精品欧美日韩精品| 成人午夜av影视| 狠狠色综合色综合网络| 亚洲国产精品自拍| 亚洲日本一区二区| 国产三级久久久| 日韩一区二区三区观看| 色噜噜狠狠色综合欧洲selulu| 国产在线乱码一区二区三区| 亚洲sss视频在线视频| 中文字幕中文乱码欧美一区二区| 日韩三级.com| 欧美嫩在线观看| 色婷婷精品大视频在线蜜桃视频| 狠狠狠色丁香婷婷综合激情| 秋霞成人午夜伦在线观看| 亚洲精品中文在线| 中文字幕一区二区日韩精品绯色| 精品国产免费久久| 精品国产一区久久| 精品国产一区二区在线观看| 91精品国产色综合久久不卡电影| 欧美亚洲动漫制服丝袜| 91电影在线观看| 色屁屁一区二区| 成人av午夜电影| 成人精品一区二区三区中文字幕| 国产一区福利在线| 极品瑜伽女神91| 激情综合网天天干| 国产毛片精品国产一区二区三区| 国模娜娜一区二区三区| 精品一区二区三区的国产在线播放| 亚洲h在线观看| 亚洲综合视频在线| 亚洲综合小说图片| 天天综合网 天天综合色| 亚洲第一av色| 另类小说视频一区二区| 国产在线精品免费| 国产一区二区在线视频| 国产精品自拍一区| 国产超碰在线一区| 91高清视频在线| 欧美日本一区二区三区| 91精品国产综合久久福利软件| 91精品国产高清一区二区三区| 欧美videos大乳护士334| 国产午夜亚洲精品理论片色戒| 久久亚洲综合色| 综合久久久久久| 日韩专区欧美专区| 国产一区久久久| 91浏览器打开| 日韩午夜在线观看| 日本一二三不卡| 亚洲午夜精品一区二区三区他趣| 日韩va欧美va亚洲va久久| 极品尤物av久久免费看| 91丨porny丨蝌蚪视频| 欧美美女直播网站| 久久精品亚洲国产奇米99| 中文字幕制服丝袜成人av| 亚洲午夜精品一区二区三区他趣| 蜜臀精品久久久久久蜜臀| 成人毛片在线观看| 欧美卡1卡2卡| 国产精品天干天干在线综合| 亚洲国产一二三| 国产很黄免费观看久久| 欧美日本韩国一区| 最近中文字幕一区二区三区| 免费的成人av| 色哟哟在线观看一区二区三区| 日韩欧美你懂的| 亚洲精品视频在线| 国产成a人亚洲| 日韩欧美一区中文| 一区二区免费在线| 成人免费不卡视频| 精品对白一区国产伦| 亚洲最新在线观看| 99视频国产精品| 久久久久高清精品| 美日韩一级片在线观看| 色国产精品一区在线观看| 国产欧美日本一区二区三区| 美女视频网站黄色亚洲| 欧美日韩不卡一区二区| 亚洲欧美综合网| 成人性色生活片免费看爆迷你毛片| 91精品国产福利在线观看| 亚洲不卡在线观看| 欧美视频中文字幕| 一区二区在线电影| 欧美在线一二三四区| 亚洲精品国产一区二区精华液| 粉嫩在线一区二区三区视频| 久久久久久免费| 国产精品一二三四区| 精品国内二区三区| 精品一区二区三区在线观看 | av电影在线观看完整版一区二区| 精品久久一区二区| 麻豆一区二区在线| 日韩欧美成人激情| 久久精品国产999大香线蕉| 制服.丝袜.亚洲.中文.综合| 亚洲va韩国va欧美va| 欧美精品色综合| 日韩精品久久理论片| 欧美精品一卡二卡| 奇米精品一区二区三区在线观看| 欧美日韩国产在线观看| 日韩av一区二| 欧美va亚洲va在线观看蝴蝶网| 男女男精品视频| 欧美xxxxxxxx| 国产成人一区二区精品非洲| 国产精品视频在线看| 99视频在线精品| 亚洲影院久久精品| 欧美高清视频一二三区| 久久成人免费网站| 国产日韩一级二级三级| 91麻豆视频网站| 全部av―极品视觉盛宴亚洲| 久久久99精品免费观看不卡| 丰满白嫩尤物一区二区| 一区二区三区免费| 日韩一本二本av| 成人短视频下载| 亚洲国产日韩精品| 亚洲精品在线免费观看视频| 国产不卡视频一区二区三区| 亚洲男人的天堂在线aⅴ视频| 欧美日韩精品电影| 国产精品69久久久久水密桃| 伊人色综合久久天天| 欧美精品18+| 北条麻妃一区二区三区| 日产国产欧美视频一区精品| 国产日本一区二区| 欧美色老头old∨ideo| 国内精品写真在线观看| 亚洲免费观看高清| 日韩午夜av一区| 91在线观看一区二区| 日本欧美在线观看| 国产精品妹子av| 精品国产一区久久| 欧美亚洲综合另类| 国产99久久久久久免费看农村| 午夜在线电影亚洲一区| 国产精品午夜免费| 日韩欧美一区二区视频| 日本韩国欧美国产| 国产成a人亚洲| 精品一区二区三区久久| 一区二区免费在线播放| 国产精品女主播在线观看| 日韩午夜电影在线观看| 欧美日韩国产一区| 色欧美片视频在线观看| 成人午夜碰碰视频| 国产一区二区三区香蕉 | 高清在线成人网| 蜜臀av性久久久久蜜臀aⅴ四虎| 中文字幕一区二区三区视频| 久久久久九九视频| 久久影院午夜论| 亚洲精品一区二区三区在线观看| 欧美日韩亚洲丝袜制服| 日本高清不卡在线观看| 91蜜桃婷婷狠狠久久综合9色| 国产成人精品免费网站| 韩国精品主播一区二区在线观看 |