標簽：權重

大模型國產化適配4-基于昇騰910使用LLaMA-13B進行多機多卡訓練

直播預告 | 6月6日晚7點，「智猩猩AI新青年講座」第238講正式開講，香港大學CVMI Lab在讀博士楊霽晗將直播講解《V-IRL：根植于真實世界的AI Agents》，歡迎...

閱讀原文

AIGC動態

1年前 (2024)

不想炸薯條的Ilya和不送GPU的英偉達，Hinton最新專訪：道路千萬條，安全第一條

新智元報道編輯：alan 【新智元導讀】從谷歌離職一年之際，「人工智能教父」Hinton接受了采訪。半退休的Hinton向我們講述了時光積累下來的智慧，以及那些年和...

閱讀原文

AIGC動態

1年前 (2024)

大模型國產化適配3-基于昇騰910使用ChatGLM-6B進行模型訓練

直播預告 | 5月28日10點，「智猩猩AI新青年講座」第236講正式開講，密歇根大學安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構提高擴散模...

閱讀原文

AIGC動態

1年前 (2024)

Altman被曝，OpenAI竟欲加密GPU合作軍方？員工大批離職團隊瀕臨崩潰

新智元報道編輯：Aeneas 好困【新智元導讀】剛剛，有網友仔細總結了OpenAI的七宗罪，對Altman發出憤怒的詰問：為何計劃跟蹤GPU？為何合作軍方？員工滾雪球式...

閱讀原文

AIGC動態

2年前 (2024)

250行代碼從頭搭建Llama 3，GitHub一天4.6k星！Karpathy大贊

新智元報道編輯：喬楊好困【新智元導讀】Llama 3發布一個月后，一位開發者在GitHub上創建了名為「從頭開始實現Llama 3」的項目，引起了開源社區的廣泛關注...

閱讀原文

AIGC動態

2年前 (2024)

從零復現Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+

西風發自凹非寺量子位 | 公眾號 QbitAI讓大神Andrej Karpathy一鍵三連??（點贊+轉發+評論），一個教你從頭開始實現Llama3的代碼庫爆火。 X上轉贊收藏量超6....

閱讀原文

AIGC動態

2年前 (2024)

LoRA數學編程任務不敵全量微調 | 哥大&Databricks新研究

克雷西發自凹非寺量子位 | 公眾號 QbitAI大數據巨頭Databricks與哥倫比亞大學最新研究發現，在數學和編程任務上，LoRA干不過全量微調。具體來說，在這兩種...

閱讀原文

AIGC動態

2年前 (2024)

Karpathy稱贊，從零實現LLaMa3項目爆火，半天1.5k star

機器之心報道編輯：杜偉、陳萍項目中代碼很多很全，值得細讀。一個月前，Meta 發布了開源大模型 llama3 系列，在多個關鍵基準測試中優于業界 SOTA 模型，并...

閱讀原文

AIGC動態

2年前 (2024)

大模型國產化適配2-基于昇騰910使用ChatGLM-6B進行模型推理

直播預告 | 5月23日晚7點，「智猩猩機器人新青年講座」第6講正式開講，論文一作、清華大學在讀博士郭旭東將直播講解《大模型在具身多智能體合作中的研究進展...

閱讀原文

AIGC動態

2年前 (2024)

Flash Attention穩定嗎？Meta、哈佛發現其模型權重偏差呈現數量級波動

機器之心報道機器之心編輯部Meta FAIR 聯合哈佛優化大規模機器學習時產生的數據偏差，提供了新的研究框架。眾所周知，大語言模型的訓練常常需要數月的時間，...

閱讀原文

AIGC動態

2年前 (2024)

30篇論文，就能掌握當今科技90%的知識！ILYA公布神級論文清單(上）

點擊上方藍字關注我們“Ilya Sutskever向John Carmack推薦了一份精選的閱讀清單，內含約30篇尖端的研究論文。這份清單不僅僅是學術文獻的簡單羅列，它被賦予了...

閱讀原文

AIGC動態

2年前 (2024)

大模型MoE的前世今生，10個模型一文搞懂！

2024年3、4月這段時間，很多MoE模型扎堆發布，包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。下面這個表格列出了部分近期發布的MoE工作MoE模型目前風頭正勁，就...

閱讀原文

AIGC動態

2年前 (2024)

「非常接近GPT-4」的WizardLM-2被微軟緊急撤回，有什么？

機器之心報道機器之心編輯部前段時間，微軟搞了個烏龍：隆重地開源了 WizardLM-2，又在不久后撤回得干干凈凈。據現在可以查到的 WizardLM-2 發布信息，這是...

閱讀原文

AIGC動態

2年前 (2024)

單卡跑Llama 70B快過雙卡，微軟硬生生把FP6搞到了A100里 | 開源

克雷西發自凹非寺量子位 | 公眾號 QbitAIFP8和更低的浮點數量化精度，不再是H100的“專利”了！老黃想讓大家用INT8/INT4，微軟DeepSpeed團隊在沒有英偉達官...

閱讀原文

AIGC動態

2年前 (2024)

Llama 3低比特量化性能下降顯著！全面評估結果來了 | 港大&北航&ETH

QHT 投稿量子位 | 公眾號 QbitAI大模型力大磚飛，讓LLaMA3演繹出了新高度：超15T Token數據上的超大規模預訓練，既實現了令人印象深刻的性能提升，也因遠超C...

閱讀原文

AIGC動態

2年前 (2024)

1 2 345 6…8