大模型SFT數(shù)據(jù)清洗:揭秘背后的繁瑣與挑戰(zhàn)
sft 數(shù)據(jù)的諸多繁瑣細(xì)節(jié)~
原標(biāo)題:LLM實(shí)踐系列-聊聊大模型SFT的數(shù)據(jù)清洗過程有多繁瑣
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):5802字
2024中國生成式AI大會(huì)(上海站)預(yù)告
2024年12月5日至6日,智猩猩聯(lián)合主辦的2024中國生成式AI大會(huì)將在上海舉行。此次大會(huì)匯聚了來自各大機(jī)構(gòu)的30多位專家嘉賓,包括北大(臨港)大模型對(duì)齊中心執(zhí)行主任徐驊、騰訊優(yōu)圖實(shí)驗(yàn)室天衍研究中心負(fù)責(zé)人吳賢等,歡迎各界人士積極報(bào)名參與。
數(shù)據(jù)清洗的重要性
在生成式AI的研發(fā)過程中,數(shù)據(jù)清洗是一個(gè)不可或缺的環(huán)節(jié)。盡管許多團(tuán)隊(duì)了解大語言模型(LLM)的基本方,但仍然面臨清洗SFT(監(jiān)督微調(diào))數(shù)據(jù)的復(fù)雜性。隨著時(shí)間的推移,去年的數(shù)據(jù)可能不再適用,因此定期更新和清洗數(shù)據(jù)顯得尤為重要。
JSON格式輸出的復(fù)雜性
文章中以“以JSON格式輸出”為例,探討了數(shù)據(jù)清洗的細(xì)節(jié)。雖然JSON格式看似簡單,但實(shí)際操作中卻存在多種變體和規(guī)則,比如indent值的選擇、是否帶有markdown格式等。對(duì)于模型的訓(xùn)練,統(tǒng)一格式至關(guān)重要,以避免輸出不一致的問題。
數(shù)值任務(wù)中的格式問題
在處理數(shù)值任務(wù)時(shí),使用float/int類型還是str類型的問題也引發(fā)了討論。數(shù)值的單位常常被忽視,而這會(huì)直接影響模型的輸出準(zhǔn)確性。為了解決這一問題,可以在SFT數(shù)據(jù)中增加單位字段,以確保信息的完整性。
總結(jié)
總的來說,生成式AI的訓(xùn)練過程中,數(shù)據(jù)清洗和格式統(tǒng)一是基礎(chǔ)而重要的環(huán)節(jié)。雖然這些工作看似繁瑣,但只有通過不斷的實(shí)踐,才能真正掌握其中的復(fù)雜性。期待在2024中國生成式AI大會(huì)上,行業(yè)專家們分享更多前沿技術(shù)與經(jīng)驗(yàn)。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下矩陣賬號(hào)之一,聚焦大模型開啟的通用人工智能浪潮。