GPT-3.5 (text-davinci-003)、ChatGPT、Claude 和 Bing Chat 等指令跟隨模型變得越來越強大。許多用戶現(xiàn)在定期與這些模型交互,甚至將它們用于工作。然而,盡管它們得到廣泛部署,指令遵循模型仍然存在許多缺陷:它們會產(chǎn)生虛假信息、傳播社會刻板印象并產(chǎn)生有毒語言。
為了在解決這些緊迫問題方面取得最大進展,學術(shù)界的參與很重要。不幸的是,在學術(shù)界對指令遵循模型進行研究一直很困難,因為沒有開源模型在功能上接近閉源模型,例如 OpenAI 的 text-davinci-003。
我們正在發(fā)布我們關(guān)于指令跟隨語言模型的發(fā)現(xiàn),該模型被稱為Alpaca ,它是從 Meta 的LLaMA?7B 模型中微調(diào)而來的。我們使用 text-davinci-003在以自我指導方式生成的 52K 指令跟隨演示上訓練羊駝模型。Alpaca 表現(xiàn)出許多類似于 OpenAI 的 text-davinci-003 的行為,但也出奇地小且易于復制/便宜。
我們正在發(fā)布我們的訓練配方和數(shù)據(jù),并打算在未來發(fā)布模型權(quán)重。我們還舉辦了一個互動演示,讓研究界更好地了解羊駝的行為。交互可以暴露意想不到的能力和失敗,這將指導我們未來對這些模型的評估。我們還鼓勵用戶在我們的網(wǎng)絡(luò)演示中報告任何相關(guān)行為,以便我們更好地理解和減輕這些行為。由于任何版本都有風險,我們稍后將在本博文中討論我們對這個公開版本的思考過程。
我們強調(diào) Alpaca僅用于學術(shù)研究,禁止任何商業(yè)用途。這個決定有3個因素:第一,Alpaca基于LLaMA,有非商業(yè)許可,所以我們必然繼承這個決定。其次,指令數(shù)據(jù)基于 OpenAI 的 text-davinci-003,其使用條款禁止開發(fā)與 OpenAI 競爭的模型。最后,我們沒有設(shè)計足夠的安全措施,所以 Alpaca 還沒有準備好部署到一般用途。
官網(wǎng)地址:https://crfm.stanford.edu/2023/03/13/alpaca.html
模型入口:https://crfm.stanford.edu/alpaca
github地址:https://github.com/tatsu-lab/stanford_alpaca
數(shù)據(jù)統(tǒng)計
數(shù)據(jù)評估
本站OpenI提供的Alpaca羊駝(斯坦福模型)都來源于網(wǎng)絡(luò),不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 5月 13日 下午4:39收錄時,該網(wǎng)頁上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進行刪除,OpenI不承擔任何責任。