大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧

AIGC動態(tài)1年前 (2024)發(fā)布算法邦

AIGC動態(tài)歡迎閱讀

原標(biāo)題：大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧
關(guān)鍵字：數(shù)據(jù),模型,騰訊,報告,多樣性
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：4699字

內(nèi)容摘要：

智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會，阿里巴巴通義千問大模型技術(shù)負(fù)責(zé)人周暢，潞晨科技創(chuàng)始人尤洋，生數(shù)科技CEO唐家渝，優(yōu)必選研究院執(zhí)行院長焦繼超，科大訊飛人形機器人首席科學(xué)家季超，DeepWisdom合伙人徐宗澤，騰訊研究科學(xué)家張馳，前Meta首席工程負(fù)責(zé)人胡魯輝等首批嘉賓已確認(rèn)帶來演講和報告，歡迎報名。大模型場景微調(diào)里面，最關(guān)鍵地的一個是問題是：
選擇什么樣的數(shù)據(jù)微調(diào)？
大的方向上大家都能把握，大概無非是要注意數(shù)據(jù)的多樣性，要注意數(shù)據(jù)的質(zhì)量，那在實踐中有哪些技巧呢？
比如我們會經(jīng)常遇到下面幾種情況：
數(shù)據(jù)要不要都去標(biāo)注，標(biāo)的比較慢咋辦？
我已經(jīng)有一批標(biāo)好的數(shù)據(jù)了，再去選哪些數(shù)據(jù)送標(biāo)注比較好？
能不能總結(jié)出一套數(shù)據(jù)構(gòu)造方面自動化的方法？
其實在大模型之前，就有很多人研究過這樣的問題。在做一個模型時候，比如簡單的文本分類，我不可能一股腦把所有數(shù)據(jù)都扔給標(biāo)注，這樣干存在一個問題，一般情況下我們數(shù)據(jù)的分布都是符合一個長尾分布的。主要的幾個類別數(shù)據(jù)占據(jù)了90%的數(shù)據(jù)量，剩下的90%的類別只有10%的數(shù)據(jù)量。
比如小紅書上，query的意圖識別里，美食，穿搭

原文鏈接：大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧