標(biāo)簽:切分
WPS接入DeepSeek,秒變辦公神器!
WPS 大家經(jīng)常用來日常寫作,雖然本身提供了AI功能,但可惜需要會(huì)員,本文教你三分鐘接入最火的DeepSeek,讓W(xué)PS秒變辦公神器。 DeepSeek API申請(qǐng)地址:http:/...
AI賺錢副業(yè)~AI生成影視解說,半個(gè)月漲粉變現(xiàn)3.5W+!
這兩年大家都在感嘆生活不易,然而我想說的是,機(jī)會(huì)還是有的,但問題不在于有沒有,而在于你是否能夠認(rèn)準(zhǔn)機(jī)會(huì),然后抓住它。 接觸過很多咨詢項(xiàng)目的人,發(fā)現(xiàn)...
2B多模態(tài)新SOTA!華科、華南理工發(fā)布Mini-Monkey,專治「切分增大分辨率」后遺癥
新智元報(bào)道編輯:LRST 好困 【新智元導(dǎo)讀】Mini-Monkey 是一個(gè)輕量級(jí)的多模態(tài)大型語言模型,通過采用多尺度自適應(yīng)切分策略(MSAC)和尺度壓縮機(jī)制(SCM),有...
Llama3訓(xùn)練每3小時(shí)崩一次?豆包大模型、港大團(tuán)隊(duì)為脆皮萬卡訓(xùn)練提效
機(jī)器之心發(fā)布 機(jī)器之心編輯部伴隨大模型迭代速度越來越快,訓(xùn)練集群規(guī)模越來越大,高頻率的軟硬件故障已經(jīng)成為阻礙訓(xùn)練效率進(jìn)一步提高的痛點(diǎn),檢查點(diǎn)(Checkp...
第四范式發(fā)布先知 AIOS 5.1,節(jié)省大模型算力硬件成本,提高 GPU 綜合利用率
今天,第四范式先知AIOS 5.1版本正式發(fā)布。該版本新增GPU資源池化(vGPU)能力,實(shí)現(xiàn)對(duì)硬件集群平臺(tái)化管理、算力資源的按需分配和快速調(diào)度,最多節(jié)省80%的硬...
關(guān)于Tokenizer的一些感想
原文:https://zhuanlan.zhihu.com/p/695307425 在現(xiàn)有Transformer作為大模型框架下,萬物tokenizer將會(huì)是一個(gè)必然的趨勢(shì)! 01為什么我們需要Token化?tokeni...
大模型訓(xùn)練之序列并行雙雄:DeepSpeed Ulysses和Ring-Attention
導(dǎo)讀本文來自知乎,作者為騰訊專家工程師方佳瑞。本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。 本文對(duì)比兩種目前炙手可熱長文本訓(xùn)練方法 DeepSpeed Ulysess ...
單個(gè)4090可推理,2000億稀疏大模型「天工MoE」開源
機(jī)器之心發(fā)布 機(jī)器之心編輯部在大模型浪潮中,訓(xùn)練和部署最先進(jìn)的密集 LLM 在計(jì)算需求和相關(guān)成本上帶來了巨大挑戰(zhàn),尤其是在數(shù)百億或數(shù)千億參數(shù)的規(guī)模上。為...
昆侖萬維開源 2 千億稀疏大模型天工 MoE,全球首創(chuàng)能用 4090 推理
2024年6月3日,昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE , 性能強(qiáng)勁, 同時(shí)推理成本更低。Skywork-MoE 基于之前昆侖萬維開源的 Skywork-13B 模型中間...
大模型國產(chǎn)化適配3-基于昇騰910使用ChatGLM-6B進(jìn)行模型訓(xùn)練
直播預(yù)告 | 5月28日10點(diǎn),「智猩猩AI新青年講座」第236講正式開講,密歇根大學(xué)安娜堡分校在讀博士生張揮杰將直播講解《利用多級(jí)框架和多解碼器架構(gòu)提高擴(kuò)散模...
大模型進(jìn)入「實(shí)用」時(shí)代!騰訊助力「銷冠」量產(chǎn),5 分鐘創(chuàng)建智能助手
機(jī)器之心原創(chuàng) 作者:張倩今年年初,英偉達(dá) CEO 黃仁勛因?yàn)閯袢恕竸e再學(xué)習(xí)計(jì)算機(jī)」被送上熱搜。但其實(shí),他的原話是「過去,幾乎每個(gè)人都會(huì)告訴你,學(xué)習(xí)計(jì)算機(jī)...
極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行
AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)...
華人團(tuán)隊(duì)用大模型實(shí)現(xiàn)“讀心術(shù)”:大腦活動(dòng)直接變文字 | NeurIPS 2023
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAINeurIPS收錄的一項(xiàng)新研究,讓大模型也學(xué)會(huì)“讀心術(shù)”了! 通過學(xué)習(xí)腦電波數(shù)據(jù),模型成功地把受試者的腦電圖信號(hào)翻譯...
32卡176%訓(xùn)練加速,開源大模型訓(xùn)練框架Megatron-LLaMA來了
機(jī)器之心發(fā)布機(jī)器之心編輯部9 月 12 日,淘天集團(tuán)聯(lián)合愛橙科技正式對(duì)外開源大模型訓(xùn)練框架 ——Megatron-LLaMA,旨在讓技術(shù)開發(fā)者們能夠更方便的提升大語言模型...