LLM實踐系列-數(shù)據(jù)去重之Simhash&Minhash分析與實現(xiàn)

AIGC動態(tài)歡迎閱讀

原標題：LLM實踐系列-數(shù)據(jù)去重之Simhash&Minhash分析與實現(xiàn)
關鍵字：知乎,向量,詞頻,分詞,數(shù)據(jù)
文章來源：智猩猩GenAI
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

講座預告11月1日上午10點，南開大學在讀博士李森茂，將以《基于擴散模型編碼器模塊的推理加速》為主題進行直播講解，歡迎掃名~今天給大家?guī)碇魼真中的一篇文章，《LLM實踐–數(shù)據(jù)去重：Simhash&Minhash 原理分析&代碼實現(xiàn)》
知乎：https://zhuanlan.zhihu.com/p/739101179
數(shù)據(jù)處理是LLM pretrain的核心環(huán)節(jié)，去重又是數(shù)據(jù)處理的重要組成部分，這篇文章就分享一下數(shù)據(jù)去重的一般做法。我寫東西的主要是想學會什么，而僅僅是了解什么，所以回答和文章大多都會附上代碼，這篇也是一樣。這個系列的文章估計廢話會比較多。
數(shù)據(jù)去重大致可以分為三個粒度：文檔粒度、段落粒度和句子粒度。
顧名思義，文檔粒度就是以文檔為單位，刪除重復文檔。這種做法最為普遍，主要是為了刪除完全重復或幾乎一致的文檔，這種文檔一般來自于相同文檔的不同源發(fā)布轉載、重復爬取等。段落粒度和文檔粒度沒有特別本質(zhì)的差別，一般適用于一些特殊的源和場景，比如法律相關的文檔大量引述法條這種，可能產(chǎn)生大面積引用的場景，做法和文檔去重也不會差太多，不過要額外關注一下分段方法。句子粒度的去重

原文鏈接：LLM實踐系列-數(shù)據(jù)去重之Simhash&Minhash分析與實現(xiàn)