標簽:參數

揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

機器之心原創 作者:張倩在 2024 年世界人工智能大會的現場,很多人在一個展臺前排隊,只為讓 AI 大模型給自己在天庭「安排」一個差事。具體流程是這樣的:首...
閱讀原文

全員i人?《大鬧天宮》MBTI測試讓全公司炸鍋!最神秘國產大模型團隊出手了

新智元報道編輯:編輯部 【新智元導讀】最近,公司全體同事都在瘋狂沉迷這款《大鬧天宮MBTI》測試!各種直擊打工人的靈魂拷問,讓所有i人和e人在職場極限場景...
閱讀原文

100天后,階躍星辰交出了第二份答卷

從「走路入場」到「跑步前進」,階躍星辰要加速奔向AGI了。作者|房曉楠 編輯|陳彩嫻 今年 3 月,「借著」 2024 全球開發者先鋒大會的場子,「國內最后一家...
閱讀原文

參數少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調框架FLoRA

Huiser 投稿量子位 | 公眾號 QbitAI為了讓大模型在特定任務、場景下發揮更大作用,LoRA這樣能夠平衡性能和算力資源的方法正在受到研究者們的青睞。 然而,以L...
閱讀原文

OpenAI服務受限?別擔心,來這里絲滑玩轉700億參數Llama3,還有100元券免費薅!

新智元報道編輯:編輯部 【新智元導讀】如何無痛玩轉Llama 3,這個手把手教程一看就會!80億參數推理單卡半分鐘速成,微調700億參數僅用4卡近半小時訓完,還...
閱讀原文

“小語言模型”或成為龐大人工智能選項的替代品

ISTOCK 來源:IEEE電氣電子工程師學會 科技公司已經陷入了建立大型語言模型(LLM,https://spectrum.ieee.org/ai-index-2024)的競爭中。例如,今年4月,Meta...
閱讀原文

240萬億巨量數據被洗出,足夠訓出18個GPT-4!全球23所機構聯手,清洗秘籍公開

新智元報道編輯:編輯部 【新智元導讀】是時候把數據Scale Down了!Llama 3揭示了這個可怕的事實:數據量從2T增加到15T,就能大力出奇跡,所以要想要有GPT-3...
閱讀原文

不做數值運算、純靠嘴炮也能機器學習?基于自然語言的全新ML范式來了

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

1塊3090就能訓7B大模型,山東大學低帶寬低顯存訓練法,解決顯卡限購卡脖子

夕小瑤科技說 原創作者 | 謝年年 大模型的全參數微調對資源要求非常高,當前業界更傾向于采用LoRA,Parallel Adapter等參數高效微調(PEFT)方法,通過添加只...
閱讀原文

Llama 3模型作者在智源大會的分享全文

文章轉載自公眾號:智源社區,本文只做學術/技術分享,如有侵權,聯系刪文?;蛟S,AGI正是我們這代人的「哥白尼革命」。就像當初人類發現地球其實沒什么特別...
閱讀原文

Llama 3模型作者中國首講!LLM 前世今生,AGI 是我們這代人的哥白尼丨2024智源大會回顧

夕小瑤科技說 分享來源| 智源社區 或許,AGI正是我們這代人的「哥白尼革命」。就像當初人類發現地球其實沒什么特別的,只是一個位于普通星系之中,圍繞普通恒...
閱讀原文

樹莓派上部署RAG!微軟Phi-3技術報告揭示「小而美」模型如何誕生

新智元報道編輯:喬楊 好困 【新智元導讀】Build大會召開兩周之后,微軟更新了Phi-3系列模型的技術報告。不僅加入最新的基準測試結果,而且對小模型、高性能...
閱讀原文

英偉達開源最強通用模型Nemotron-4 340B

機器之心報道 機器之心編輯部性能超越 Llama-3,主要用于合成數據。英偉達的通用大模型 Nemotron,開源了最新的 3400 億參數版本。 本周五,英偉達宣布推出 N...
閱讀原文

Karpathy 4小時AI大課上線,小白看了都會從零構建GPT-2!

新智元報道編輯:桃子 【新智元導讀】距上次Karpathy AI大課更新之后,又有了1個多月的時間。這次他帶了超詳細的4小時課程——從零開始實現1.24億參數規模的GPT...
閱讀原文

大模型國產化適配5-百度飛漿PaddleNLP大語言模型工具鏈總結

近年來,人工智能快速發展,成為全球最為前沿的科技領域;與此同時,也誕生了很多優秀的 AI 工具。比如:國外的 AI 工具 PyTorch 、TensorFlow等,國產 AI 工...
閱讀原文
13456716