標簽:參數
馬斯克xAI首個研究成果發布!創始成員楊格&姚班校友共同一作
西風 魚羊 發自 凹非寺量子位 | 公眾號 QbitAI馬斯克的xAI,首項公開研究成果來了!共同一作之一,正是xAI創始成員、丘成桐弟子楊格(Greg Yang)。此前,楊...
用暫停token重新訓練大模型,AI學會三思而后行
夢晨 發自 凹非寺量子位 | 公眾號 QbitAI讓ChatGPT給出答案之前多想想步驟,就能提高準確率。那么能不能省去提示詞,直接把這種能力內化在大模型里呢?CMU與...
輕量級持續學習: 0.6%額外參數把舊模型重編程到新任務
機器之心專欄機器之心編輯部持續學習的目的是模仿人類在連續任務中持續積累知識的能力,其主要挑戰是在持續學習新任務后如何保持對以前所學任務的表現,即避...
OpenAI科學家最新演講:GPT-4即將超越拐點,1000倍性能必定涌現!
新智元報道編輯:桃子【新智元導讀】GPT-4參數規模擴大1000倍,如何實現?OpenAI科學家最新演講,從第一性原理出發,探討了2023年大模型發展現狀。「GPT-4即...
只需1%參數,效果超越ControlNet,新AI繪畫控制大師來襲
西風 發自 凹非寺量子位 | 公眾號 QbitAI“新·AI繪畫細節控制大師”ControlNet-XS來啦!敲重點的是參數只要原始ControlNet的1%。就能做到蛋糕口味隨意切換:△左...
將混合專家推向極限:只需更新0.32%的參數就能完成模型微調
機器之心報道編輯:Panda W微調無需更新全部模型參數,這種方法只需更新不到 1% 的參數。眾所周知,大模型的訓練成本很高,但其實對預訓練后的模型進行微調也...
大模型生成提速2倍!單GPU幾小時搞定微調,北大數院校友共同一作丨開源
蕭簫 發自 凹非寺量子位 | 公眾號 QbitAI只需給大模型“加點小零件”,推理速度立刻提升2倍!不需要額外訓練一個模型,也不需要對計算硬件做優化,單張A100最快...
1.3>7?微軟新模型“以小博大”戰勝Llama2,網友:用Benchmark訓練的吧?
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI一個參數量只有1.3B的大模型,為何引發了全網熱議?原來雖然參數量不大,但效果已經超過了擁有7B參數的Llama2。這...
MLPerf放榜,中國AI芯片公司再獲世界第一!大模型推理三項冠軍,性能超越H100
新智元報道編輯:好困 桃子【新智元導讀】MLPerf最新GPT大模型推理測試放榜了!這家國產算力公司再拿世界第一,性能最高可達1.8倍英偉達H100。隨著ChatGPT等A...
10人倆月搞出大模型!一年16篇頂會論文加持:市面上做得好的都沒有開源
衡宇 發自 凹非寺量子位 | 公眾號 QbitAI一家今年5月份成立在深圳的公司,團隊至今不到10人。他們要做的卻不是小事:挑戰AGI。底氣在哪?一看過往履歷,二看...
智源:70萬預算從頭開發千億參數大模型,挑戰成功
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI預算10萬美元(約73萬人民幣),從頭訓練一個全新的千億參數大模型。智源研究院與國內多所高校及南洋理工聯合團隊...
32卡176%訓練加速,開源大模型訓練框架Megatron-LLaMA來了
機器之心發布機器之心編輯部9 月 12 日,淘天集團聯合愛橙科技正式對外開源大模型訓練框架 ——Megatron-LLaMA,旨在讓技術開發者們能夠更方便的提升大語言模型...
10萬美元+26天,一個低成本千億參數LLM就誕生了
機器之心報道編輯:Panda W訓練一個 GPT 那樣的千億參數規模的大型語言模型需要多少錢和時間?北京智源人工智能研究院和中國科學院計算技術研究所等多所機構...
百川智能開源最新商用大模型!王小川:比LLaMA更香,下一槍打ChatGPT
衡宇 發自 凹非寺量子位 | 公眾號 QbitAI我們現在可以獲得比LLaMA更友好,且能力更強的開源模型。這次在發布會現場表達出“遙遙領先”之意的,是百川智能CEO王...