標(biāo)簽:張量

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經(jīng)常用來(lái)日常寫作,雖然本身提供了AI功能,但可惜需要會(huì)員,本文教你三分鐘接入最火的DeepSeek,讓W(xué)PS秒變辦公神器。 DeepSeek API申請(qǐng)地址:http:/...
閱讀原文

AI賺錢副業(yè)~AI生成影視解說(shuō),半個(gè)月漲粉變現(xiàn)3.5W+!

這兩年大家都在感嘆生活不易,然而我想說(shuō)的是,機(jī)會(huì)還是有的,但問題不在于有沒有,而在于你是否能夠認(rèn)準(zhǔn)機(jī)會(huì),然后抓住它。 接觸過(guò)很多咨詢項(xiàng)目的人,發(fā)現(xiàn)...

專家模型不要專家并行!微軟開源MoE新路徑

新智元報(bào)道編輯:alan 【新智元導(dǎo)讀】近日,來(lái)自微軟的研究人員開源了使用全新方法訓(xùn)練的MoE大模型,不走尋常路,且編碼和數(shù)學(xué)表現(xiàn)出色。繼Phi家族之后,微軟...
閱讀原文

從圖像到視頻:淺談Video Diffusion Models背后的底層原理

01前言最近一段時(shí)間恰好在推進(jìn)手上的一個(gè)做視頻生成相關(guān)的課??題,也是對(duì)視頻擴(kuò)散模型(Video Diffusion Models)這一領(lǐng)域有了頗多認(rèn)識(shí)。其中,視頻擴(kuò)散模型...
閱讀原文

「乘法變加法」!MIT清華校友全新方法優(yōu)化Transformer:Addition is All You Need

新智元報(bào)道編輯:?jiǎn)虠?好困 【新智元導(dǎo)讀】Transformer計(jì)算,竟然直接優(yōu)化到乘法運(yùn)算了。MIT兩位華人學(xué)者近期發(fā)表的一篇論文提出:Addition is All You Need...
閱讀原文

一行代碼訓(xùn)練成本再降30%,AI大模型混合精度訓(xùn)練再升級(jí)|開源

允中 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAIFP8通過(guò)其獨(dú)特的數(shù)值表示方式,能夠在保持一定精度的同時(shí),在大模型訓(xùn)練中提高訓(xùn)練速度、節(jié)省內(nèi)存占用,最終降低訓(xùn)練...
閱讀原文

TensorRT-LLM保姆級(jí)教程(一)-快速入門

隨著大模型的爆火,投入到生產(chǎn)環(huán)境的模型參數(shù)量規(guī)模也變得越來(lái)越大(從數(shù)十億參數(shù)到千億參數(shù)規(guī)模),從而導(dǎo)致大模型的推理成本急劇增加。因此,市面上也出現(xiàn)...
閱讀原文

如果大不是有史以來(lái)的第一次,那是什么導(dǎo)致了它發(fā)生?

來(lái)源:科技世代千高原 許多持反對(duì)態(tài)度的人對(duì)宇宙膨脹的發(fā)生提出質(zhì)疑。但證據(jù)表明事實(shí)并非如此。 不斷膨脹的宇宙充滿了星系和我們今天觀察到的復(fù)雜結(jié)構(gòu),它起...
閱讀原文

Llama3訓(xùn)練每3小時(shí)崩一次?豆包大模型、港大團(tuán)隊(duì)為脆皮萬(wàn)卡訓(xùn)練提效

機(jī)器之心發(fā)布 機(jī)器之心編輯部伴隨大模型迭代速度越來(lái)越快,訓(xùn)練集群規(guī)模越來(lái)越大,高頻率的軟硬件故障已經(jīng)成為阻礙訓(xùn)練效率進(jìn)一步提高的痛點(diǎn),檢查點(diǎn)(Checkp...
閱讀原文

GPU訓(xùn)Llama 3.1瘋狂崩潰,竟有大廠用CPU服務(wù)器跑千億參數(shù)大模型?

新智元報(bào)道編輯:編輯部 【新智元導(dǎo)讀】是時(shí)候用CPU通用服務(wù)器跑千億參數(shù)大模型了!馬斯克19天建成由10萬(wàn)塊H100串聯(lián)的世界最大超算,已全力投入Grok 3的訓(xùn)練...
閱讀原文

斯坦福博士圖解AlphaFold 3:超多細(xì)節(jié)+可視化還原ML工程師眼中的AF3

新智元報(bào)道編輯:?jiǎn)虠?庸庸 【新智元導(dǎo)讀】AlphaFold 3的論文太晦澀?沒關(guān)系,斯坦福大學(xué)的兩位博士生「圖解」AlphaFold 3 ,將模型架構(gòu)可視化,同時(shí)不遺漏任...
閱讀原文

只激活3.8B參數(shù),性能比肩同款7B模型!訓(xùn)練微調(diào)都能用,來(lái)自微軟

克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI只需激活60%的參數(shù),就能實(shí)現(xiàn)與全激活稠密模型相當(dāng)?shù)男阅堋?微軟亞洲研究院的一項(xiàng)新研究,實(shí)現(xiàn)了模型的完全稀疏激...
閱讀原文

參數(shù)少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微調(diào)框架FLoRA

Huiser 投稿量子位 | 公眾號(hào) QbitAI為了讓大模型在特定任務(wù)、場(chǎng)景下發(fā)揮更大作用,LoRA這樣能夠平衡性能和算力資源的方法正在受到研究者們的青睞。 然而,以L...
閱讀原文

AI真·煉丹:整整14天,無(wú)需人類參與

金磊 夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI現(xiàn)在制藥這事,人類要靠邊站了。 坐標(biāo)蘇州,這是一個(gè)1600平的制藥實(shí)驗(yàn)室,它的“打開方式”是這樣的: 門口,沒有...
閱讀原文

史上最快AI芯片「Sohu」,速度10倍于B200,哈佛輟學(xué)生打造

機(jī)器之心報(bào)道 編輯:澤南、杜偉生成式 AI 推理性價(jià)比是 GPU 的 140 倍。大模型時(shí)代,全球都缺算力,買鏟子的英偉達(dá)市值被炒上了天。 現(xiàn)在,終于有一家公司帶...
閱讀原文

大模型壓縮量化方案怎么選?無(wú)問芯穹Qllm-Eval量化方案全面評(píng)估:多模型、多參數(shù)、多維度

機(jī)器之心發(fā)布 作者:李師堯(無(wú)問芯穹TechView)基于 Transformer架構(gòu)的大型語(yǔ)言模型在各種基準(zhǔn)測(cè)試中展現(xiàn)出優(yōu)異性能,但數(shù)百億、千億乃至萬(wàn)億量級(jí)的參數(shù)規(guī)模...
閱讀原文

這個(gè)團(tuán)隊(duì)做了OpenAI沒Open的技術(shù),開源OpenRLHF讓對(duì)齊大模型超簡(jiǎn)單

機(jī)器之心報(bào)道 編輯:Panda隨著大型語(yǔ)言模型(LLM)規(guī)模不斷增大,其性能也在不斷提升。盡管如此,LLM 依然面臨著一個(gè)關(guān)鍵難題:與人類的價(jià)值和意圖對(duì)齊。在解...
閱讀原文
123