大模型訓(xùn)練十戒
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型訓(xùn)練十戒
關(guān)鍵字:模型,注解,數(shù)據(jù),任務(wù),能力
文章來源:算法邦
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
直播預(yù)告 | 5月30日晚7點(diǎn),「智猩猩機(jī)器人新青年講座」第7講正式開講,邀請到論文共一、港大羅謙博士將直播講解《大模型驅(qū)動下的具身智能體腦身同步》,歡迎掃名~今天看到一個(gè)很有意思的東西,言簡意賅,字字璣珠。加了的注解,與大家分享。
新造的LLM,感謝尊者開悟~
1.切勿微調(diào)(Thou Shalt Not Fine-Tune):盡量寫prompt,利用大模型本身的能力zeroshot,必要時(shí)輔以少量樣本(few-shot examples)或檢索增強(qiáng)生成(RAG)。微調(diào)成本高、速度慢且復(fù)雜,僅在確實(shí)需要時(shí)才進(jìn)行。
注解:在一些接近大模型通用能力的場景上,隨著模型基礎(chǔ)能力的增強(qiáng),微調(diào)的必要性越來越低。如果最近使用過gpt4o的接口的話,一定會被其擁有3.5的速度和4.5的效果震撼到,真的,如無必要,無需微調(diào)。
2.務(wù)必調(diào)調(diào)prompt(Thou Shalt Write a Freaking Prompt):用一個(gè)prompt創(chuàng)建一個(gè)baseline,并通過寫prompt證明這個(gè)場景或者任務(wù)是可行的。如果寫prompt就可以達(dá)到基本要求,那么微調(diào)可以進(jìn)一步提升;如果prompt不
原文鏈接:大模型訓(xùn)練十戒
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。