標簽：問題

大模型測試題爆火，GPT-4和Claude3都跪了，LeCun轉發：新Benchmark

克雷西發自凹非寺量子位 | 公眾號 QbitAI一項新的“大模型Benchmark”在推特上爆火，LeCun也點贊轉發了！而且無論是GPT-4還是Claude 3，面對它都如同被奪了...

閱讀原文

AIGC動態

1年前 (2024)

智源聯合多所高校推出首個多任務長視頻評測基準 MLVU：GPT-4o 單選正確率不到 65%

作者 | 智源研究院 MLVU 團隊當前，研究社區亟需全面可靠的長視頻理解評估基準，以解決現有視頻理解評測基準在視頻長度不足、類型和任務單一等方面的局限性...

閱讀原文

AIGC動態

1年前 (2024)

GPT-4o差點沒及格！首個多任務長視頻評測基準，它有億點難

MLVU團隊投稿量子位 | 公眾號 QbitAI難度大升級的多任務長視頻理解評測基準MLVU來了！由智源聯合北郵、北大和浙大等多所高校推出。究竟有多難呢？最終排名...

閱讀原文

AIGC動態

1年前 (2024)

從高考到奧林匹克競技場：大模型與人類智能的終極較量

? AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學...

閱讀原文

AIGC動態

1年前 (2024)

2024KDD挑戰任務，GPT-4僅得40分，Meta發布最新RAG評價基準

夕小瑤科技說原創作者 | Axe_越眾所周知，“要想富，先修路”，經常挖路的同學應該知道，要想修好一條路，首先就必須搞清楚關于道路質量的統一驗收標準，否則...

閱讀原文

AIGC動態

1年前 (2024)

GPT-4o攻破ARC-AGI無法被挑戰的神話！71%準確率成新SOTA

新智元報道編輯：庸庸喬楊【新智元導讀】號稱不可能輕易被擊敗的AGI基準ARC-AGI被GPT-4o撼動，GPT-4o以在公共測試集50%、在訓練集71%的準確率成為了新的SOTA...

閱讀原文

AIGC動態

1年前 (2024)

創業失敗指南：如何做垮一家創業公司？

成功創業公司的經驗都是類似的，但失敗的創業，卻可能是千差萬別的原因。比如決策者錯誤的判斷、過度自信或領導的自戀、甚至過于臃腫的流程…… 今天這篇文章，...

閱讀原文

AIGC動態

1年前 (2024)

大模型預測問題的計算復雜度，用不同能力的LLMs協作提高推理效率

關鍵詞：大語言模型，深度學習，計算復雜度來源：集智俱樂部作者：郭瑞東?? 大語言模型（LLMs）在人工智能領域取得顯著進展，但同時也帶來了推理成本方面的...

閱讀原文

AIGC動態

1年前 (2024)

中文大模型競技場第一：MiniMax海螺AI初體驗！

直播預告 | 6月20日晚7點，「智猩猩機器人新青年講座」第8講正式開講，清華大學THUNLP lab在讀博士胡錦毅將直播講解《面向多模態大模型的具身智能平臺LEGENT...

閱讀原文

AIGC動態

1年前 (2024)

聯創用ChatGPT寫的一行代碼讓公司損失上萬美元！網友：老板自己寫的，找不到人背鍋了

作者｜Asim Shrestha 譯者｜核子可樂編輯｜冬梅編者按：ChatGPT 在編程時的使用已經非常廣泛。近日，一支國外技術團隊在利用 ChatGPT 生成代碼進行開發時遇...

閱讀原文

AIGC動態

1年前 (2024)

拯救Transformer推理能力！DeepMind新研究TransNAR：給模型嵌入「算法推理大腦」

新智元報道編輯：喬楊好困【新智元導讀】DeepMind最近發表的一篇論文提出用混合架構的方法解決Transformer模型的推理缺陷。將Transformer的NLU技能與基于GN...

閱讀原文

AIGC動態

1年前 (2024)

LLM最全「怪癖」首曝光！馬里蘭OpenAI等30+學者祭出75頁提示報告

新智元報道編輯：編輯部【新智元導讀】大語言模型提示中，竟有不少「怪癖」：重復某些內容，準確性就大大提高；人名變匿名，準確性就大大下降。最近，馬里蘭...

閱讀原文

AIGC動態

1年前 (2024)

大模型+蒙特卡洛樹搜索，一招讓LLaMa-3 8B奧數水平直逼GPT-4

機器之心報道編輯：陳萍、杜偉通過算法層面的創新，未來大語言模型做數學題的水平會不斷地提高。這幾天，17 歲中專生姜萍在 2024 阿里巴巴全球數學競賽預選...

閱讀原文

AIGC動態

1年前 (2024)

張俊林：關于Scaling Law、半合成數據、MOE及長文本

直播預告 | 6月18日上午10點，「智猩猩AI新青年講座」第240講正式開講，邀請到德州大學奧斯汀分校劉星超博士將直播講解《利用直線概率流加速Stable Diffusion...

閱讀原文

AIGC動態

1年前 (2024)

AI 初創企業如何做好增長？來自 PayPal 增長負責人的最佳實踐

本文編譯自播客 20VC，Harry Stebbings 與 Matt Lerner 談論了 AI 時代中初創企業的最佳增長方法論。 Matt Lerner 在 PayPal 帶領增長團隊工作了 11 年，是增...

閱讀原文

AIGC動態

1年前 (2024)

1…13 141516 17…36