AIGC動態歡迎閱讀
內容摘要:
事情的起因是知乎上有人針對一篇文章的疑問:
文章鏈接:
https://arxiv.org/abs/2401.10286
題目:Top in Chinese Data Propecessing: English Code Models論文在摘要里提到:在對中文幻覺高度敏感的任務 中,實驗結果表明,具有較少中文語言特性的模型,取得了更好的性能。
01完整摘要盡管在語言模型應用中,任務與訓練語料庫之間的一致性是一個基本,但我們的一系 列實驗和我們設計的度量標準揭示,基于代碼的大型語言模型(LLMs)在非編碼中文任務 中顯著優于在與任務緊密匹配的數據上訓練的模型。此外,在對中文幻覺高度敏感的任務 中,實驗結果表明,具有較少中文語言特性的模型,取得了更好的性能。我們的實驗結果可 以在中文數據處理任務中很容易地被復制,例如為檢索增強生成(Retrieval-Augmented Generation, RAG)準備數據,只需簡單地用基于代碼的模型替換基礎模型。此外,我們的研究 為討論哲學上的“中文房間”思想實驗提供了一個獨特的視角。
在本文的4.2.2 Less Chinese Knowled
原文鏈接:中文數據讓LLM變笨?
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:「算法邦」,隸屬于智猩猩,關注大模型、生成式AI、計算機視覺三大領域的研究與開發,提供技術文章、講座、在線研討會。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...