大模型SFT數(shù)據(jù)清洗：揭秘背后的繁瑣與挑戰(zhàn)

sft 數(shù)據(jù)的諸多繁瑣細(xì)節(jié)~

原標(biāo)題：LLM實(shí)踐系列-聊聊大模型SFT的數(shù)據(jù)清洗過程有多繁瑣
文章來源：智猩猩GenAI
內(nèi)容字?jǐn)?shù)：5802字

2024中國生成式AI大會(huì)（上海站）預(yù)告

2024年12月5日至6日，智猩猩聯(lián)合主辦的2024中國生成式AI大會(huì)將在上海舉行。此次大會(huì)匯聚了來自各大機(jī)構(gòu)的30多位專家嘉賓，包括北大（臨港）大模型對(duì)齊中心執(zhí)行主任徐驊、騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心負(fù)責(zé)人吳賢等，歡迎各界人士積極報(bào)名參與。

數(shù)據(jù)清洗的重要性

在生成式AI的研發(fā)過程中，數(shù)據(jù)清洗是一個(gè)不可或缺的環(huán)節(jié)。盡管許多團(tuán)隊(duì)了解大語言模型（LLM）的基本方，但仍然面臨清洗SFT（監(jiān)督微調(diào)）數(shù)據(jù)的復(fù)雜性。隨著時(shí)間的推移，去年的數(shù)據(jù)可能不再適用，因此定期更新和清洗數(shù)據(jù)顯得尤為重要。

JSON格式輸出的復(fù)雜性

文章中以“以JSON格式輸出”為例，探討了數(shù)據(jù)清洗的細(xì)節(jié)。雖然JSON格式看似簡單，但實(shí)際操作中卻存在多種變體和規(guī)則，比如indent值的選擇、是否帶有markdown格式等。對(duì)于模型的訓(xùn)練，統(tǒng)一格式至關(guān)重要，以避免輸出不一致的問題。

數(shù)值任務(wù)中的格式問題

在處理數(shù)值任務(wù)時(shí)，使用float/int類型還是str類型的問題也引發(fā)了討論。數(shù)值的單位常常被忽視，而這會(huì)直接影響模型的輸出準(zhǔn)確性。為了解決這一問題，可以在SFT數(shù)據(jù)中增加單位字段，以確保信息的完整性。

總結(jié)

總的來說，生成式AI的訓(xùn)練過程中，數(shù)據(jù)清洗和格式統(tǒng)一是基礎(chǔ)而重要的環(huán)節(jié)。雖然這些工作看似繁瑣，但只有通過不斷的實(shí)踐，才能真正掌握其中的復(fù)雜性。期待在2024中國生成式AI大會(huì)上，行業(yè)專家們分享更多前沿技術(shù)與經(jīng)驗(yàn)。