標簽:切分

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥

新智元報道編輯:LRST 好困 【新智元導讀】Mini-Monkey 是一個輕量級的多模態大型語言模型,通過采用多尺度自適應切分策略(MSAC)和尺度壓縮機制(SCM),有...
閱讀原文

Llama3訓練每3小時崩一次?豆包大模型、港大團隊為脆皮萬卡訓練提效

機器之心發布 機器之心編輯部伴隨大模型迭代速度越來越快,訓練集群規模越來越大,高頻率的軟硬件故障已經成為阻礙訓練效率進一步提高的痛點,檢查點(Checkp...
閱讀原文

第四范式發布先知 AIOS 5.1,節省大模型算力硬件成本,提高 GPU 綜合利用率

今天,第四范式先知AIOS 5.1版本正式發布。該版本新增GPU資源池化(vGPU)能力,實現對硬件集群平臺化管理、算力資源的按需分配和快速調度,最多節省80%的硬...
閱讀原文

關于Tokenizer的一些感想

原文:https://zhuanlan.zhihu.com/p/695307425 在現有Transformer作為大模型框架下,萬物tokenizer將會是一個必然的趨勢! 01為什么我們需要Token化?tokeni...
閱讀原文

大模型訓練之序列并行雙雄:DeepSpeed Ulysses和Ring-Attention

導讀本文來自知乎,作者為騰訊專家工程師方佳瑞。本文只做學術/技術分享,如有侵權,聯系刪文。 本文對比兩種目前炙手可熱長文本訓練方法 DeepSpeed Ulysess ...
閱讀原文

單個4090可推理,2000億稀疏大模型「天工MoE」開源

機器之心發布 機器之心編輯部在大模型浪潮中,訓練和部署最先進的密集 LLM 在計算需求和相關成本上帶來了巨大挑戰,尤其是在數百億或數千億參數的規模上。為...
閱讀原文

昆侖萬維開源 2 千億稀疏大模型天工 MoE,全球首創能用 4090 推理

2024年6月3日,昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE , 性能強勁, 同時推理成本更低。Skywork-MoE 基于之前昆侖萬維開源的 Skywork-13B 模型中間...
閱讀原文

大模型國產化適配3-基于昇騰910使用ChatGLM-6B進行模型訓練

直播預告 | 5月28日10點,「智猩猩AI新青年講座」第236講正式開講,密歇根大學安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構提高擴散模...
閱讀原文

大模型進入「實用」時代!騰訊助力「銷冠」量產,5 分鐘創建智能助手

機器之心原創 作者:張倩今年年初,英偉達 CEO 黃仁勛因為勸人「別再學習計算機」被送上熱搜。但其實,他的原話是「過去,幾乎每個人都會告訴你,學習計算機...
閱讀原文

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

華人團隊用大模型實現“讀心術”:大腦活動直接變文字 | NeurIPS 2023

克雷西 發自 凹非寺量子位 | 公眾號 QbitAINeurIPS收錄的一項新研究,讓大模型也學會“讀心術”了! 通過學習腦電波數據,模型成功地把受試者的腦電圖信號翻譯...
閱讀原文

32卡176%訓練加速,開源大模型訓練框架Megatron-LLaMA來了

機器之心發布機器之心編輯部9 月 12 日,淘天集團聯合愛橙科技正式對外開源大模型訓練框架 ——Megatron-LLaMA,旨在讓技術開發者們能夠更方便的提升大語言模型...
閱讀原文