標簽:注意力
250行代碼從頭搭建Llama 3,GitHub一天4.6k星!Karpathy大贊
新智元報道編輯:喬楊 好困 【新智元導讀】Llama 3發布一個月后,一位開發者在GitHub上創建了名為「從頭開始實現Llama 3」的項目,引起了開源社區的廣泛關注...
從零復現Llama3代碼庫爆火,大神Kapathy一鍵三連,GitHub狂攬2k+
西風 發自 凹非寺量子位 | 公眾號 QbitAI讓大神Andrej Karpathy一鍵三連??(點贊+轉發+評論),一個教你從頭開始實現Llama3的代碼庫爆火。 X上轉贊收藏量超6....
Karpathy稱贊,從零實現LLaMa3項目爆火,半天1.5k star
機器之心報道 編輯:杜偉、陳萍項目中代碼很多很全,值得細讀。一個月前,Meta 發布了開源大模型 llama3 系列,在多個關鍵基準測試中優于業界 SOTA 模型,并...
Sora之后,OpenAI Lilian Weng親自撰文教你從頭設計視頻生成擴散模型
選自Lil’Log 作者:Lilian Weng 機器之心編譯 編輯:Panda過去幾年來,擴散模型強大的圖像合成能力已經得到充分證明。研究社區現在正在攻克一個更困難的任務...
Meta無限長文本大模型來了:參數僅7B,已開源
機器之心報道 編輯:澤南、陳萍谷歌之后,Meta 也來卷無限長上下文。Transformers 的二次復雜度和弱長度外推限制了它們擴展到長序列的能力,雖然存在線性注意...
華為諾亞頻域LLM「帝江」:僅需1/50訓練成本,7B模型媲美LLaMA,推理加速5倍
4月18-19日,由智猩猩與智東西共同主辦的2024中國生成式AI大會將在北京JW萬豪酒店舉行。大會完整議程出爐,55位嘉賓出席!免費票申請通道即將關閉,大會通票...
劍指Sora!120秒超長AI視頻模型免費開玩
新智元報道編輯:alan 【新智元導讀】近日,Picsart AI Resarch等團隊聯合發布了StreamingT2V,可以生成長達1200幀、時長為2分鐘的視頻,一舉超越Sora。同時...
直接擴展到無限長,谷歌Infini-Transformer終結上下文長度之爭
機器之心報道 編輯:小舟、陳萍不知 Gemini 1.5 Pro 是否用到了這項技術。 谷歌又放大招了,發布下一代 Transformer 模型 Infini-Transformer。 Infini-Trans...
Transformer并非萬能:Jamba在效率和吞吐量上大幅超越
點擊上方藍字關注我們“AI21 Labs推出Jamba,一種結合SSM與transformers的新AI模型,旨在提高處理長上下文的效率。Jamba在特定推理任務上超越傳統模型,盡管在...
OpenAI公關跳起來捂他嘴:Transformer作者公開承認參與Q*!|八位作者最新專訪
夢晨 發自 凹非寺量子位 | 公眾號 QbitAITransformer作者中唯一去了OpenAI的那位,公開承認了: 他參與了Q*項目,是這項新技術的發明者之一。 這幾天除了英偉...
7人創業、1人投敵!Transformer 八子谷歌坐冷板凳5年再成老黃座上賓
作者|Steven Levy 譯者|核子可樂 策劃|冬梅 導讀: 3月21日,GTC AI大會,黃仁勛對話7位Transformer框架論文作者。他們認為,AI行業被困在了六七年前的原...
Transformer七子重聚GTC,老黃親自贈送簽名版DGX-1!7年奠基之作背后佚事揭秘
新智元報道編輯:編輯部 【新智元導讀】Transformer奠基之作拯救了現在的AI。就在GTC大會上,老黃聚齊了其中的七位作者,開啟了一場深度訪談。GTC大會上,老...
全球首個類Sora開源復現方案來了!全面公開所有訓練細節和模型權重
明敏 發自 凹非寺量子位 | 公眾號 QbitAI全球首個開源的類Sora架構視頻生成模型,來了! 整個訓練流程,包括數據處理、所有訓練細節和模型權重,全部開放。 ...
OpenAI開源了:Transformer自動debug工具上線GitHub
機器之心報道 編輯:澤南不用敲代碼,就可以快速探索模型結構。最近時常被吐槽不夠開源的 OpenAI,突然開放了一次。 今天一早,OpenAI 機器學習研究員 Jan Le...
港中文聯合MIT提出超長上下文LongLoRA大模型微調算法
大數據文摘受權轉載自將門創投 現階段,上下文窗口長度基本上成為了評估LLM能力的硬性指標,上下文的長度越長,代表大模型能夠接受的用戶要求越復雜,近期Ope...