標簽:損失

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

大模型“取長補短”新思路入選NeurIPS'24,顯著優于現有路由方法,南科大港科大出品

RouterDC團隊 投稿量子位 | 公眾號 QbitAI高效組合多個大模型“取長補短”新思路,被頂會NeurIPS 2024接收。 名為RouterDC,是一種基于雙重對比學習的路由架構...
閱讀原文

今日最熱論文:Scaling Law后繼乏力,量化也不管用,AI大佬齊刷刷附議

一水 發自 凹非寺量子位 | 公眾號 QbitAI幾十萬人關注,一發表即被行業大佬評為“這是很長時間以來最重要的論文”。 哈佛、斯坦福、MIT等團隊的一項研究表明:...
閱讀原文

深入淺出Batch Size,對模型訓練的影響分析

開講預告11月7日晚7點,上海 AI Lab OpenGVLab 博士后研究員羅根,將以《Mono-InternVL: 突破原生多模態大模型性能瓶頸》為主題進行直播講解,歡迎掃碼報名~...
閱讀原文

從數據增強的隱藏作用出發,揭示視覺強化學習可塑性損失的獨特機制

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

英偉達玩轉剪枝、蒸餾:把Llama 3.1 8B參數減半,性能同尺寸更強

機器之心報道 編輯:杜偉、陳陳、澤南小模型崛起了。上個月,Meta 發布了 Llama 3.1 系列模型,其中包括 Meta 迄今為止最大的 405B 模型,以及兩個較小的模型...
閱讀原文

FBI-LLM低比特基礎大語言模型來了,首個完全從頭訓練的二值化語言模型

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

MSRA:視覺生成六大技術問題

古紓旸 投稿量子位 | 公眾號 QbitAI文生圖、文生視頻,視覺生成賽道火熱,但仍存在亟需解決的問題。 微軟亞洲研究院研究員古紓旸對此進行了梳理,他認為視覺...
閱讀原文

最新!何愷明團隊發布:打破自回歸圖像生成瓶頸,告別矢量量化

夕小瑤科技說 原創作者 | 21#近日,深度學習領域的杰出研究者何愷明及其團隊又放了個大招,推出其團隊最新研究工作,在AI研究領域引起了廣泛關注。 何愷明202...
閱讀原文

何愷明新作再戰AI生成:入職MIT后首次帶隊,奧賽雙料金牌得主鄧明揚參與

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI何愷明入職MIT副教授后,首次帶隊的新作來了! 讓自回歸模型拋棄矢量量化,使用連續值生成圖像。并借鑒擴散模型的思...
閱讀原文

OpenAI公開GPT-4思維的新方法,Ilya也參與了!

西風 發自 凹非寺量子位 | 公眾號 QbitAIOpenAI研究如何破解GPT-4思維,公開超級對齊團隊工作,Ilya Sutskever也在作者名單之列。 該研究提出了改進大規模訓...
閱讀原文

StyleMamba:圖片風格不滿意?一句話就能調!

夕小瑤科技說 原創作者 | Axe_越你與哈利波特的距離,只剩一個StyleMamba! “我想,把我的圖變成朦朧馬賽克” “我想,我的畫能不能變成美美的莫奈風格” “我想...
閱讀原文

清華發布Temporal Scaling Law,解釋時間尺度對大模型表現的影響

夕小瑤科技說 原創作者 | Axe_越眾所周知, 語言模型調參! 預訓練語言模型調參!! 預訓練大語言模型調參!!! 簡直就是一個指數級遞增令人炸毛的事情,小...
閱讀原文

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經網絡的訓練更加高效

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術...
閱讀原文

手撕CNN:綜述論文詳解卷積網絡的數學本質

近日南洋理工大學研究者發布了一篇描述卷積網絡數學原理的論文,該論文從數學的角度闡述整個卷積網絡的運算與傳播過程。該論文對理解卷積網絡的數學本質非常...
閱讀原文

三篇論文解決「語義分割的優化和評估」難題!魯汶/清華/牛津等聯合提出全新方法

新智元報道編輯:LRS 【新智元導讀】現有的語義分割技術在評估指標、損失函數等設計上都存在缺陷,研究人員針對相關缺陷設計了全新的損失函數、評估指標和基...
閱讀原文