中文數(shù)據(jù)讓LLM變笨?
AIGC動態(tài)歡迎閱讀
原標題:中文數(shù)據(jù)讓LLM變笨?
關鍵字:知乎,模型,中文,任務,代碼
文章來源:算法邦
內(nèi)容字數(shù):4239字
內(nèi)容摘要:
事情的起因是知乎上有人針對一篇文章的疑問:
文章鏈接:
https://arxiv.org/abs/2401.10286
題目:Top in Chinese Data Propecessing: English Code Models論文在摘要里提到:在對中文幻覺高度敏感的任務 中,實驗結果表明,具有較少中文語言特性的模型,取得了更好的性能。
01完整摘要盡管在語言模型應用中,任務與訓練語料庫之間的一致性是一個基本,但我們的一系 列實驗和我們設計的度量標準揭示,基于代碼的大型語言模型(LLMs)在非編碼中文任務 中顯著優(yōu)于在與任務緊密匹配的數(shù)據(jù)上訓練的模型。此外,在對中文幻覺高度敏感的任務 中,實驗結果表明,具有較少中文語言特性的模型,取得了更好的性能。我們的實驗結果可 以在中文數(shù)據(jù)處理任務中很容易地被復制,例如為檢索增強生成(Retrieval-Augmented Generation, RAG)準備數(shù)據(jù),只需簡單地用基于代碼的模型替換基礎模型。此外,我們的研究 為討論哲學上的“中文房間”思想實驗提供了一個獨特的視角。
在本文的4.2.2 Less Chinese Knowled
原文鏈接:中文數(shù)據(jù)讓LLM變笨?
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發(fā),提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關文章
暫無評論...