OpenAI把GPT-4原始版給了他們:研究不微調(diào)只靠提示詞能走多遠(yuǎn)

AIGC動態(tài)歡迎閱讀
原標(biāo)題:OpenAI把GPT-4原始版給了他們:研究不微調(diào)只靠提示詞能走多遠(yuǎn)
關(guān)鍵字:模型,示例,指令,上下文,發(fā)現(xiàn)
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI除了OpenAI自己,居然還有別人能用上GPT-4-Base版??
也就是未經(jīng)微調(diào)的預(yù)訓(xùn)練版,還不會對話,只會補全句子的模型。
EPFL(瑞士洛桑聯(lián)邦理工)團(tuán)隊申請到了訪問權(quán)限,用于研究“上下文學(xué)習(xí)足以讓大模型跟隨指令嗎?”。
也就是不用監(jiān)督微調(diào)、也不用RHLF或其他強化學(xué)習(xí)對齊方法,只靠提示詞能走多遠(yuǎn)?
預(yù)訓(xùn)練模型,究竟能不能一步登天,直接改造成機器人或AI助手?
如果可行,將大大降低類ChatGPT大模型的開發(fā)難度。
免微調(diào)對齊靠譜嗎?免微調(diào)對齊,讓剛出爐的預(yù)訓(xùn)練模型不止會“文本補全”,只從提示詞中學(xué)會和用戶對話、跟隨指令,一直是業(yè)界關(guān)注的研究方向。
目前的SOTA方法URIAL來自艾倫研究所,使用系統(tǒng)提示詞+少數(shù)風(fēng)格示例就能達(dá)到不錯的效果。
但EPFL團(tuán)隊發(fā)現(xiàn),URIAL仍無法完全彌補與指令微調(diào)模型的差距,尤其在多輪對話中的表現(xiàn)更差一些。
實驗中,在Llama系列、Mistral系列和一般人接觸不到的GPT-4-Base都觀察到這種現(xiàn)象。???
其中GPT-4-Base的API訪問權(quán)限從OpenAI Researcher
原文鏈接:OpenAI把GPT-4原始版給了他們:研究不微調(diào)只靠提示詞能走多遠(yuǎn)
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號