標簽:測試

馬斯克“超級高鐵”夢碎美國!明星創業公司公告倒閉,成立10年一單沒接

夢晨 豐色 發自 凹非寺量子位 | 公眾號 QbitAI很突然,“超級高鐵”明星公司Hyperloop One宣布即將倒閉,解雇了大部分員工,12月31日徹底結束。 一時間馬斯克又...
閱讀原文

自己發基準自己第一,Anyscale行為惹社區吐槽

機器之心報道 編輯:蛋醬前一天發布 LLMPerf 排行榜,宣稱要推動大型語言模型推理領域的發展,鼓勵創新與超越。 第二天就收獲 AI 社區的大量吐槽,原因是排行...
閱讀原文

CMU權威對比Gemini,GPT-3和Mistral8×7B!GPT-3.5依舊拿捏Gemini,開源模型差距依然不小

新智元報道編輯:山令alan 【新智元導讀】谷歌發布Gemini以后,一直宣稱Gemini Pro要優于GPT-3.5,而CMU的研究人員通過自己實測,給大家來了一個客觀中立第三...
閱讀原文

顯卡之爭!英偉達和AMD下場互掐!GPU霸主地位是否能保?

夕小瑤科技說 原創作者 | 王二狗大家好,我是二狗。 英偉達和AMD這兩家芯片巨頭掐起來啦! 事情的起因是,兩周前AMD董事會主席兼CEO蘇姿豐在一場活動中發布了...
閱讀原文

摸底谷歌Gemini:CMU全面測評,Gemini Pro不敵GPT 3.5 Turbo

機器之心報道 機器之心編輯部谷歌的 Gemini 到底幾斤幾兩?和 OpenAI 的 GPT 模型相比表現如何?CMU 這篇論文測明白了。前段時間,谷歌發布了對標 OpenAI GPT...
閱讀原文

ChatGPT變懶原因:正在給自己放寒假!已被網友測出?

西風 發自 凹非寺量子位 | 公眾號 QbitAIChatGPT近期偷懶嚴重,有了一種聽起來很離譜的解釋:模仿人類,自己給自己放寒假了~有測試為證,網友@Rob Lynch用GT...
閱讀原文

華為余承東怒懟懂車帝,「坑人」的冬測有什么貓膩?

雪地里的真相懂車帝這個冬測價格確實讓人震驚,相對來說,手機圈的 DxO 簡直是過家家。今天凌晨,博主@小蒜苗長 拋出了一張疑似懂車帝冬測的商業合作權益截圖...
閱讀原文

一句話解鎖100k+上下文大模型真實力,27分漲到98,GPT-4、Claude2.1適用

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI各家大模型紛紛卷起上下文窗口,Llama-1時標配還是2k,現在不超過100k的已經不好意思出門了。然鵝一項極限測試卻發現...
閱讀原文

谷歌 Gemini 與 GPT-4 哪家強?

來源:數據觀綜合(轉載請注明來源)編輯:蒲蒲美國時間12月6日,谷歌正式發布了 Gemini 大模型。按照谷歌的說法, Gemini 可以像人類一樣理解世界,處理代碼...
閱讀原文

優等生歸來,谷歌最強大模型Gemini能否打敗GPT4?|甲子光年

谷歌在技術前瞻性上領先,OpenAI更專注于產品的打磨。作者|蘇霍伊編輯|王博??'沉寂'已久的谷歌終于放大招了。美國當地時間12月6日,谷歌發布多模態大模型Ge...
閱讀原文

朱松純教授團隊提出通用人工智能測試評級的標準與平臺Tong Test

//人類正在邁入智能時代,其區別于信息時代的顯著特征是大量通用智能體的出現,而通用人工智能作為引領和推動智能時代發展的核心科技,是目前及未來國際人工...
閱讀原文

最新Claude 200K嚴重「虛標」?大神壕擲1016美元實測,90K后性能急劇下降

新智元報道編輯:潤 好困【新智元導讀】月初剛測了GPT-4 Turbo上下文真實實力的大神Greg Kamradt又盯上了Anthropic剛更新的Claude 2.1。他自己花了1016刀測完...
閱讀原文

GPT-4不會圖形推理?“放水”后準確率依然只有33%

克雷西 發自 凹非寺量子位 | 公眾號 QbitAIGPT-4的圖形推理能力,竟然連人類的一半都不到?美國圣塔菲研究所的一項研究顯示,GPT-4做圖形推理題的準確率僅有3...
閱讀原文

GPT-4V在自動駕駛上應用前景如何?面向真實場景的全面測評來了

機器之心報道機器之心編輯部GPT-4V 的發布讓許多計算機視覺(CV)應用看到了新的可能。一些研究人員開始探索 GPT-4V 的實際應用潛力。最近,一篇題為《On the...
閱讀原文

AI「cosplay」關鍵在人設!復旦、人大等發布大五人格+MBTI測試:特質還原率達82.8%,拒絕OOC

新智元報道編輯:LRS【新智元導讀】良好的人設還原度是AI角色扮演的關鍵,研究人員對大五人格的NEO-FFI問卷和MBTI的16Personalities進行了改寫,利用LLM將其...
閱讀原文
1910111213