InfiMM-WebMath-40B:超大規(guī)模多模態(tài)數(shù)據(jù)集驅(qū)動(dòng)智能應(yīng)用的全新可能性
InfiMM-WebMath-40B 是由字節(jié)跳動(dòng)與中國(guó)科學(xué)院聯(lián)合開源的一個(gè)超大規(guī)模多模態(tài)數(shù)據(jù)集,專注于提升多模態(tài)模型在數(shù)學(xué)領(lǐng)域的圖文混合推理能力。該數(shù)據(jù)集從 Common Crawl 中提取,經(jīng)過嚴(yán)格的篩選和清洗,最終形成了包含 2400 萬個(gè)網(wǎng)頁、8500 萬個(gè)圖像 URL 和 400 億個(gè)文本標(biāo)記的豐富內(nèi)容,涵蓋了廣泛的數(shù)學(xué)和科學(xué)主題。InfiMM-WebMath-40B 在 MathVerse 和 We-Math 等基準(zhǔn)測(cè)試中取得了顯著的成績(jī),展現(xiàn)了其在數(shù)學(xué)推理方面的強(qiáng)大能力。
InfiMM-WebMath-40B是什么
InfiMM-WebMath-40B 是一個(gè)由字節(jié)跳動(dòng)與中國(guó)科學(xué)院共同推出的開源多模態(tài)數(shù)據(jù)集,旨在提升多模態(tài)模型在數(shù)學(xué)推理中的表現(xiàn)。該數(shù)據(jù)集以 Common Crawl 為基礎(chǔ),經(jīng)過嚴(yán)格的篩選、清理和標(biāo)注,涵蓋了 2400 萬個(gè)網(wǎng)頁、8500 萬個(gè)圖像 URL 以及 400 億個(gè)文本標(biāo)記,提供了豐富的數(shù)學(xué)及科學(xué)相關(guān)內(nèi)容。通過使用 InfiMM-WebMath-40B,模型在數(shù)學(xué)推理能力方面得到了顯著提升,并在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。
InfiMM-WebMath-40B的主要功能
- 增強(qiáng)數(shù)學(xué)推理能力:InfiMM-WebMath-40B 包含豐富的數(shù)學(xué)和科學(xué)相關(guān)數(shù)據(jù),包括文本、公式、符號(hào)和圖像,幫助多模態(tài)大語言模型(MLLMs)深入學(xué)習(xí)數(shù)學(xué)知識(shí),從而提升其在數(shù)學(xué)推理方面的表現(xiàn)。
- 理解多模態(tài)信息:作為一個(gè)多模態(tài)數(shù)據(jù)集,它結(jié)合了文本和圖像數(shù)據(jù),助力 MLLMs 學(xué)習(xí)如何整合這兩種信息,以更好地理解復(fù)雜的數(shù)學(xué)概念及問題。
- 促進(jìn)模型應(yīng)用:基于 InfiMM-WebMath-40B 進(jìn)行預(yù)訓(xùn)練的 MLLMs,可以更有效地應(yīng)用于數(shù)學(xué)相關(guān)的應(yīng)用場(chǎng)景,例如數(shù)學(xué)題庫、學(xué)習(xí)工具和數(shù)學(xué)論文的閱讀與理解等。
InfiMM-WebMath-40B的技術(shù)原理
- 數(shù)據(jù)來源:該數(shù)據(jù)集基于 Common Crawl,包含大量互聯(lián)網(wǎng)公開網(wǎng)頁內(nèi)容。
- 數(shù)據(jù)篩選:通過關(guān)鍵詞匹配篩選相關(guān)頁面,確保每個(gè)文檔中至少包含一定數(shù)量的 LaTeX 符號(hào)。同時(shí),通過 fastText 進(jìn)行語言過濾,只保留中英文內(nèi)容。
- 數(shù)據(jù)提取:使用 Trafilatura 庫提取文本內(nèi)容,并分析網(wǎng)頁中的圖像 URL,以獲取與數(shù)學(xué)主題相關(guān)的圖像。
- 數(shù)據(jù)清洗:利用 MinHash 等技術(shù)進(jìn)行去重,并采用基于規(guī)則的過濾方法,去除包含“l(fā)orem ipsum”的短文檔及不適當(dāng)內(nèi)容的文檔。
- 數(shù)據(jù)標(biāo)注:使用 LLaMA3-70B-Instruct 模型對(duì)數(shù)學(xué)內(nèi)容進(jìn)行評(píng)分,并利用 fastText 分類器進(jìn)行精確過濾。
InfiMM-WebMath-40B的項(xiàng)目地址
- HuggingFace模型庫:https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B
- arXiv技術(shù)論文:https://arxiv.org/pdf/2409.12568
InfiMM-WebMath-40B的應(yīng)用場(chǎng)景
- 數(shù)學(xué)題庫與評(píng)估工具:開發(fā)者可以利用 MLLMs 自動(dòng)生成數(shù)學(xué)題目、評(píng)估學(xué)生答案并提供反饋,從而構(gòu)建智能化的數(shù)學(xué)題庫和評(píng)估工具。
- 數(shù)學(xué)學(xué)習(xí)工具與平臺(tái):幫助 MLLMs 更深入地理解數(shù)學(xué)概念和公式,開發(fā)更智能的學(xué)習(xí)工具和平臺(tái),例如提供個(gè)性化學(xué)習(xí)建議和解答學(xué)生疑問。
- 數(shù)學(xué)論文閱讀和理解:提升 MLLMs 對(duì)數(shù)學(xué)論文的理解能力,開發(fā)自動(dòng)摘要、翻譯和解釋數(shù)學(xué)論文的工具。
- 數(shù)學(xué)研究:為數(shù)學(xué)研究提供數(shù)據(jù)支持,應(yīng)用于訓(xùn)練數(shù)學(xué)模型和分析數(shù)學(xué)數(shù)據(jù)等。
- 其他科學(xué)領(lǐng)域:InfiMM-WebMath-40B 也包含物理、化學(xué)、生物等科學(xué)內(nèi)容,幫助 MLLMs 理解相關(guān)概念、公式和圖像,支持科學(xué)研究與應(yīng)用。
常見問題
關(guān)于 InfiMM-WebMath-40B 的具體使用和技術(shù)細(xì)節(jié),歡迎訪問我們的項(xiàng)目頁面獲取更多信息。