蘋果大模型新成果:GPT-4o扮演用戶,在場(chǎng)景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開(kāi)源

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:蘋果大模型新成果:GPT-4o扮演用戶,在場(chǎng)景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開(kāi)源
關(guān)鍵字:模型,工具,場(chǎng)景,狀態(tài),用戶
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
克雷西 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI蘋果團(tuán)隊(duì),又發(fā)布了新的開(kāi)源成果——一套關(guān)于大模型工具調(diào)用能力的Benchmark。
這套Benchmark創(chuàng)新性地采用了場(chǎng)景化測(cè)評(píng)方法,可以更好體現(xiàn)模型在真實(shí)環(huán)境中的水平。
而且還引入了對(duì)話交互、狀態(tài)依賴等傳統(tǒng)標(biāo)準(zhǔn)中沒(méi)有關(guān)注到的重要場(chǎng)景。
這套測(cè)試基準(zhǔn)名叫ToolSandbox,蘋果基礎(chǔ)模型團(tuán)隊(duì)負(fù)責(zé)人龐若鳴也參與了研究工作。
ToolSandbox彌補(bǔ)了現(xiàn)有測(cè)試標(biāo)準(zhǔn)缺乏場(chǎng)景化評(píng)估的不足,縮小了測(cè)試條件與實(shí)際應(yīng)用之間的差距。
而且在交互上,作者讓GPT-4o扮演用戶和被測(cè)模型進(jìn)行對(duì)話,從而模擬真實(shí)世界中的場(chǎng)景。
比如告訴GPT-4o你不再是一個(gè)助理,而是要扮演正在和用戶B對(duì)話的用戶A,然后提出一系列具體要求。
另外,作者也利用ToolSandbox對(duì)一些主流模型進(jìn)行了測(cè)試,結(jié)果整體上看閉源比開(kāi)源模型分?jǐn)?shù)更高,其中最強(qiáng)的是GPT-4o。
iOS應(yīng)用開(kāi)發(fā)者Nick Dobos表示,蘋果的這套標(biāo)準(zhǔn)簡(jiǎn)潔明了。
同時(shí)他指出,現(xiàn)在ChatGPT面對(duì)三個(gè)工具就已經(jīng)有些捉襟見(jiàn)肘,Siri要想管理好手機(jī)中幾十上百個(gè)應(yīng)用,也需要提高工具調(diào)用能力。
言外之意
原文鏈接:蘋果大模型新成果:GPT-4o扮演用戶,在場(chǎng)景中考察大模型工具調(diào)用,網(wǎng)友:Siri也要努力 | 開(kāi)源
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:

粵公網(wǎng)安備 44011502001135號(hào)