標簽:問題
大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉發:新Benchmark
克雷西 發自 凹非寺量子位 | 公眾號 QbitAI一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉發了! 而且無論是GPT-4還是Claude 3,面對它都如同被奪了...
智源聯合多所高校推出首個多任務長視頻評測基準 MLVU:GPT-4o 單選正確率不到 65%
作者 | 智源研究院 MLVU 團隊 當前,研究社區亟需全面可靠的長視頻理解評估基準,以解決現有視頻理解評測基準在視頻長度不足、類型和任務單一等方面的局限性...
GPT-4o差點沒及格!首個多任務長視頻評測基準,它有億點難
MLVU團隊 投稿量子位 | 公眾號 QbitAI難度大升級的多任務長視頻理解評測基準MLVU來了! 由智源聯合北郵、北大和浙大等多所高校推出。 究竟有多難呢?最終排名...
從高考到奧林匹克競技場:大模型與人類智能的終極較量
? AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學...
2024KDD挑戰任務,GPT-4僅得40分,Meta發布最新RAG評價基準
夕小瑤科技說 原創作者 | Axe_越眾所周知,“要想富,先修路”,經常挖路的同學應該知道,要想修好一條路,首先就必須搞清楚關于道路質量的統一驗收標準,否則...
GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA
新智元報道編輯:庸庸喬楊 【新智元導讀】號稱不可能輕易被擊敗的AGI基準ARC-AGI被GPT-4o撼動,GPT-4o以在公共測試集50%、在訓練集71%的準確率成為了新的SOTA...
創業失敗指南:如何做垮一家創業公司?
成功創業公司的經驗都是類似的,但失敗的創業,卻可能是千差萬別的原因。比如決策者錯誤的判斷、過度自信或領導的自戀、甚至過于臃腫的流程…… 今天這篇文章,...
大模型預測問題的計算復雜度,用不同能力的LLMs協作提高推理效率
關鍵詞:大語言模型,深度學習,計算復雜度來源:集智俱樂部 作者:郭瑞東?? 大語言模型(LLMs)在人工智能領域取得顯著進展,但同時也帶來了推理成本方面的...
中文大模型競技場第一:MiniMax海螺AI初體驗!
直播預告 | 6月20日晚7點,「智猩猩機器人新青年講座」第8講正式開講,清華大學THUNLP lab在讀博士胡錦毅將直播講解《面向多模態大模型的具身智能平臺LEGENT...
聯創用ChatGPT寫的一行代碼讓公司損失上萬美元!網友:老板自己寫的,找不到人背鍋了
作者|Asim Shrestha 譯者|核子可樂 編輯|冬梅編者按:ChatGPT 在編程時的使用已經非常廣泛。近日,一支國外技術團隊在利用 ChatGPT 生成代碼進行開發時遇...
拯救Transformer推理能力!DeepMind新研究TransNAR:給模型嵌入「算法推理大腦」
新智元報道編輯:喬楊 好困 【新智元導讀】DeepMind最近發表的一篇論文提出用混合架構的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GN...
LLM最全「怪癖」首曝光!馬里蘭OpenAI等30+學者祭出75頁提示報告
新智元報道編輯:編輯部 【新智元導讀】大語言模型提示中,竟有不少「怪癖」:重復某些內容,準確性就大大提高;人名變匿名,準確性就大大下降。最近,馬里蘭...
大模型+蒙特卡洛樹搜索,一招讓LLaMa-3 8B奧數水平直逼GPT-4
機器之心報道 編輯:陳萍、杜偉通過算法層面的創新,未來大語言模型做數學題的水平會不斷地提高。這幾天,17 歲中專生姜萍在 2024 阿里巴巴全球數學競賽預選...
張俊林:關于Scaling Law、半合成數據、MOE及長文本
直播預告 | 6月18日上午10點,「智猩猩AI新青年講座」第240講正式開講,邀請到德州大學奧斯汀分校劉星超博士將直播講解《利用直線概率流加速Stable Diffusion...
AI 初創企業如何做好增長?來自 PayPal 增長負責人的最佳實踐
本文編譯自播客 20VC,Harry Stebbings 與 Matt Lerner 談論了 AI 時代中初創企業的最佳增長方法論。 Matt Lerner 在 PayPal 帶領增長團隊工作了 11 年,是增...
粵公網安備 44011502001135號