標簽:權重
大模型國產化適配4-基于昇騰910使用LLaMA-13B進行多機多卡訓練
直播預告 | 6月6日晚7點,「智猩猩AI新青年講座」第238講正式開講,香港大學CVMI Lab在讀博士 楊霽晗將直播講解《V-IRL:根植于真實世界的AI Agents》,歡迎...
不想炸薯條的Ilya和不送GPU的英偉達,Hinton最新專訪:道路千萬條,安全第一條
新智元報道編輯:alan 【新智元導讀】從谷歌離職一年之際,「人工智能教父」Hinton接受了采訪。半退休的Hinton向我們講述了時光積累下來的智慧,以及那些年和...
大模型國產化適配3-基于昇騰910使用ChatGLM-6B進行模型訓練
直播預告 | 5月28日10點,「智猩猩AI新青年講座」第236講正式開講,密歇根大學安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構提高擴散模...
Altman被曝,OpenAI竟欲加密GPU合作軍方?員工大批離職團隊瀕臨崩潰
新智元報道編輯:Aeneas 好困 【新智元導讀】剛剛,有網友仔細總結了OpenAI的七宗罪,對Altman發出憤怒的詰問:為何計劃跟蹤GPU?為何合作軍方?員工滾雪球式...
250行代碼從頭搭建Llama 3,GitHub一天4.6k星!Karpathy大贊
新智元報道編輯:喬楊 好困 【新智元導讀】Llama 3發布一個月后,一位開發者在GitHub上創建了名為「從頭開始實現Llama 3」的項目,引起了開源社區的廣泛關注...
從零復現Llama3代碼庫爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
西風 發自 凹非寺量子位 | 公眾號 QbitAI讓大神Andrej Karpathy一鍵三連??(點贊+轉發+評論),一個教你從頭開始實現Llama3的代碼庫爆火。 X上轉贊收藏量超6....
LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI大數據巨頭Databricks與哥倫比亞大學最新研究發現,在數學和編程任務上,LoRA干不過全量微調。 具體來說,在這兩種...
Karpathy稱贊,從零實現LLaMa3項目爆火,半天1.5k star
機器之心報道 編輯:杜偉、陳萍項目中代碼很多很全,值得細讀。一個月前,Meta 發布了開源大模型 llama3 系列,在多個關鍵基準測試中優于業界 SOTA 模型,并...
大模型國產化適配2-基于昇騰910使用ChatGLM-6B進行模型推理
直播預告 | 5月23日晚7點,「智猩猩機器人新青年講座」第6講正式開講,論文一作、清華大學在讀博士郭旭東將直播講解《大模型在具身多智能體合作中的研究進展...
Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動
機器之心報道 機器之心編輯部Meta FAIR 聯合哈佛優化大規模機器學習時產生的數據偏差,提供了新的研究框架。眾所周知,大語言模型的訓練常常需要數月的時間,...
30篇論文,就能掌握當今科技90%的知識!ILYA公布神級論文清單(上)
點擊上方藍字關注我們“Ilya Sutskever向John Carmack推薦了一份精選的閱讀清單,內含約30篇尖端的研究論文。這份清單不僅僅是學術文獻的簡單羅列,它被賦予了...
大模型MoE的前世今生,10個模型一文搞懂!
2024年3、4月這段時間,很多MoE模型扎堆發布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。 下面這個表格列出了部分近期發布的MoE工作MoE模型目前風頭正勁,就...
「非常接近GPT-4」的WizardLM-2被微軟緊急撤回,有什么?
機器之心報道 機器之心編輯部前段時間,微軟搞了個烏龍:隆重地開源了 WizardLM-2,又在不久后撤回得干干凈凈。 據現在可以查到的 WizardLM-2 發布信息,這是...
單卡跑Llama 70B快過雙卡,微軟硬生生把FP6搞到了A100里 | 開源
克雷西 發自 凹非寺量子位 | 公眾號 QbitAIFP8和更低的浮點數量化精度,不再是H100的“專利”了! 老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官...
Llama 3低比特量化性能下降顯著!全面評估結果來了 | 港大&北航Ð
QHT 投稿量子位 | 公眾號 QbitAI大模型力大磚飛,讓LLaMA3演繹出了新高度: 超15T Token數據上的超大規模預訓練,既實現了令人印象深刻的性能提升,也因遠超C...
粵公網安備 44011502001135號