標簽：注意力

250行代碼從頭搭建Llama 3，GitHub一天4.6k星！Karpathy大贊

新智元報道編輯：喬楊好困【新智元導讀】Llama 3發布一個月后，一位開發者在GitHub上創建了名為「從頭開始實現Llama 3」的項目，引起了開源社區的廣泛關注...

閱讀原文

AIGC動態

1年前 (2024)

從零復現Llama3代碼庫爆火，大神Kapathy一鍵三連，GitHub狂攬2k+

西風發自凹非寺量子位 | 公眾號 QbitAI讓大神Andrej Karpathy一鍵三連??（點贊+轉發+評論），一個教你從頭開始實現Llama3的代碼庫爆火。 X上轉贊收藏量超6....

閱讀原文

AIGC動態

1年前 (2024)

Karpathy稱贊，從零實現LLaMa3項目爆火，半天1.5k star

機器之心報道編輯：杜偉、陳萍項目中代碼很多很全，值得細讀。一個月前，Meta 發布了開源大模型 llama3 系列，在多個關鍵基準測試中優于業界 SOTA 模型，并...

閱讀原文

AIGC動態

1年前 (2024)

Sora之后，OpenAI Lilian Weng親自撰文教你從頭設計視頻生成擴散模型

選自Lil’Log 作者：Lilian Weng 機器之心編譯編輯：Panda過去幾年來，擴散模型強大的圖像合成能力已經得到充分證明。研究社區現在正在攻克一個更困難的任務...

閱讀原文

AIGC動態

1年前 (2024)

Meta無限長文本大模型來了：參數僅7B，已開源

機器之心報道編輯：澤南、陳萍谷歌之后，Meta 也來卷無限長上下文。Transformers 的二次復雜度和弱長度外推限制了它們擴展到長序列的能力，雖然存在線性注意...

閱讀原文

AIGC動態

1年前 (2024)

華為諾亞頻域LLM「帝江」：僅需1/50訓練成本，7B模型媲美LLaMA，推理加速5倍

4月18-19日，由智猩猩與智東西共同主辦的2024中國生成式AI大會將在北京JW萬豪酒店舉行。大會完整議程出爐，55位嘉賓出席！免費票申請通道即將關閉，大會通票...

閱讀原文

AIGC動態

1年前 (2024)

劍指Sora！120秒超長AI視頻模型免費開玩

新智元報道編輯：alan 【新智元導讀】近日，Picsart AI Resarch等團隊聯合發布了StreamingT2V，可以生成長達1200幀、時長為2分鐘的視頻，一舉超越Sora。同時...

閱讀原文

AIGC動態

1年前 (2024)

直接擴展到無限長，谷歌Infini-Transformer終結上下文長度之爭

機器之心報道編輯：小舟、陳萍不知 Gemini 1.5 Pro 是否用到了這項技術。谷歌又放大招了，發布下一代 Transformer 模型 Infini-Transformer。 Infini-Trans...

閱讀原文

AIGC動態

1年前 (2024)

Transformer并非萬能：Jamba在效率和吞吐量上大幅超越

點擊上方藍字關注我們“AI21 Labs推出Jamba，一種結合SSM與transformers的新AI模型，旨在提高處理長上下文的效率。Jamba在特定推理任務上超越傳統模型，盡管在...

閱讀原文

AIGC動態

1年前 (2024)

OpenAI公關跳起來捂他嘴：Transformer作者公開承認參與Q*！｜八位作者最新專訪

夢晨發自凹非寺量子位 | 公眾號 QbitAITransformer作者中唯一去了OpenAI的那位，公開承認了：他參與了Q*項目，是這項新技術的發明者之一。這幾天除了英偉...

閱讀原文

AIGC動態

2年前 (2024)

7人創業、1人投敵！Transformer 八子谷歌坐冷板凳5年再成老黃座上賓

作者｜Steven Levy 譯者｜核子可樂策劃｜冬梅導讀： 3月21日，GTC AI大會，黃仁勛對話7位Transformer框架論文作者。他們認為，AI行業被困在了六七年前的原...

閱讀原文

AIGC動態

2年前 (2024)

Transformer七子重聚GTC，老黃親自贈送簽名版DGX-1！7年奠基之作背后佚事揭秘

新智元報道編輯：編輯部【新智元導讀】Transformer奠基之作拯救了現在的AI。就在GTC大會上，老黃聚齊了其中的七位作者，開啟了一場深度訪談。GTC大會上，老...

閱讀原文

AIGC動態

2年前 (2024)

全球首個類Sora開源復現方案來了！全面公開所有訓練細節和模型權重

明敏發自凹非寺量子位 | 公眾號 QbitAI全球首個開源的類Sora架構視頻生成模型，來了！整個訓練流程，包括數據處理、所有訓練細節和模型權重，全部開放。 ...

閱讀原文

AIGC動態

2年前 (2024)

OpenAI開源了：Transformer自動debug工具上線GitHub

機器之心報道編輯：澤南不用敲代碼，就可以快速探索模型結構。最近時常被吐槽不夠開源的 OpenAI，突然開放了一次。今天一早，OpenAI 機器學習研究員 Jan Le...

閱讀原文

AIGC動態

2年前 (2024)

港中文聯合MIT提出超長上下文LongLoRA大模型微調算法

大數據文摘受權轉載自將門創投現階段，上下文窗口長度基本上成為了評估LLM能力的硬性指標，上下文的長度越長，代表大模型能夠接受的用戶要求越復雜，近期Ope...

閱讀原文

AIGC動態

2年前 (2024)

1…3 456 7…9,556