大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧
AIGC動態(tài)歡迎閱讀
原標(biāo)題:大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧
關(guān)鍵字:數(shù)據(jù),模型,騰訊,報告,多樣性
文章來源:算法邦
內(nèi)容字?jǐn)?shù):4699字
內(nèi)容摘要:
智猩猩與智東西將于4月18-19日在北京共同舉辦2024中國生成式AI大會,阿里巴巴通義千問大模型技術(shù)負(fù)責(zé)人周暢,潞晨科技創(chuàng)始人尤洋,生數(shù)科技CEO唐家渝,優(yōu)必選研究院執(zhí)行院長焦繼超,科大訊飛人形機器人首席科學(xué)家季超,DeepWisdom合伙人徐宗澤,騰訊研究科學(xué)家張馳,前Meta首席工程負(fù)責(zé)人胡魯輝等首批嘉賓已確認(rèn)帶來演講和報告,歡迎報名。大模型場景微調(diào)里面,最關(guān)鍵地的一個是問題是:
選擇什么樣的數(shù)據(jù)微調(diào)?
大的方向上大家都能把握,大概無非是要注意數(shù)據(jù)的多樣性,要注意數(shù)據(jù)的質(zhì)量,那在實踐中有哪些技巧呢?
比如我們會經(jīng)常遇到下面幾種情況:
數(shù)據(jù)要不要都去標(biāo)注,標(biāo)的比較慢咋辦?
我已經(jīng)有一批標(biāo)好的數(shù)據(jù)了,再去選哪些數(shù)據(jù)送標(biāo)注比較好?
能不能總結(jié)出一套數(shù)據(jù)構(gòu)造方面自動化的方法?
其實在大模型之前,就有很多人研究過這樣的問題。在做一個模型時候,比如簡單的文本分類,我不可能一股腦把所有數(shù)據(jù)都扔給標(biāo)注,這樣干存在一個問題,一般情況下我們數(shù)據(jù)的分布都是符合一個長尾分布的。主要的幾個類別數(shù)據(jù)占據(jù)了90%的數(shù)據(jù)量,剩下的90%的類別只有10%的數(shù)據(jù)量。
比如小紅書上,query的意圖識別里,美食,穿搭
原文鏈接:大模型微調(diào)數(shù)據(jù)選擇和構(gòu)造技巧
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。