蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開源
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開源
關(guān)鍵字:模型,工具,場景,狀態(tài),用戶
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI蘋果團(tuán)隊(duì),又發(fā)布了新的開源成果——一套關(guān)于大模型工具調(diào)用能力的Benchmark。
這套Benchmark創(chuàng)新性地采用了場景化測評方法,可以更好體現(xiàn)模型在真實(shí)環(huán)境中的水平。
而且還引入了對話交互、狀態(tài)依賴等傳統(tǒng)標(biāo)準(zhǔn)中沒有關(guān)注到的重要場景。
這套測試基準(zhǔn)名叫ToolSandbox,蘋果基礎(chǔ)模型團(tuán)隊(duì)負(fù)責(zé)人龐若鳴也參與了研究工作。
ToolSandbox彌補(bǔ)了現(xiàn)有測試標(biāo)準(zhǔn)缺乏場景化評估的不足,縮小了測試條件與實(shí)際應(yīng)用之間的差距。
而且在交互上,作者讓GPT-4o扮演用戶和被測模型進(jìn)行對話,從而模擬真實(shí)世界中的場景。
比如告訴GPT-4o你不再是一個(gè)助理,而是要扮演正在和用戶B對話的用戶A,然后提出一系列具體要求。
另外,作者也利用ToolSandbox對一些主流模型進(jìn)行了測試,結(jié)果整體上看閉源比開源模型分?jǐn)?shù)更高,其中最強(qiáng)的是GPT-4o。
iOS應(yīng)用開發(fā)者Nick Dobos表示,蘋果的這套標(biāo)準(zhǔn)簡潔明了。
同時(shí)他指出,現(xiàn)在ChatGPT面對三個(gè)工具就已經(jīng)有些捉襟見肘,Siri要想管理好手機(jī)中幾十上百個(gè)應(yīng)用,也需要提高工具調(diào)用能力。
言外之意
原文鏈接:蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開源
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: