Apertus – 瑞士開源的首個大規模語言模型
Apertus:瑞士首個大規模開放多語言大型語言模型,支持70B和8B參數版本,注重數據隱私與控制,并大幅提升了對包括瑞士德語、羅曼什語在內的小語種支持。
Apertus:賦能開放、多語言AI新紀元
Apertus,作為瑞士科技界的一項重要突破,是由瑞士聯邦理工學院(EPFL)、蘇黎世聯邦理工學院(ETH Zurich)以及瑞士國家超級計算中心(CSCS)聯合打造的。這款模型不僅是瑞士首個大規模開放的大型語言模型(LLM),更在多語言能力上實現了質的飛躍,為全球用戶帶來了前所未有的AI體驗。
核心亮點:開放、多語言與數據
Apertus 的核心在于其全面開放的特性,用戶可以獲取模型權重、訓練數據及詳細的訓練過程,并可在本地服務器部署,從而完全掌控自身的數據隱私。在多語言支持方面,Apertus 表現尤為突出,其訓練數據中高達40%為非英語內容,涵蓋了瑞士德語、羅曼什語等此前在LLM領域被忽視的語言,極大地拓寬了AI的應用邊界。
該模型擁有70B和8B兩個參數版本,采用先進的僅解碼器Transformer架構,并引入了創新的xIELU激活函數和AdEMAMix優化器,顯著提升了模型的效率和長上下文處理能力。
技術實力:驅動AI的強大引擎
在模型架構上,Apertus 采用了高效的密集解碼器Transformer設計,70B版本擁有80層與64個注意力頭,8B版本則為32層與32個注意力頭。通過xIELU激活函數、RMSNorm歸一化、RoPE位置編碼和分組查詢注意力機制,Apertus 在處理長文本序列和提升效率方面表現卓越。
預訓練目標方面,Apertus 運用Goldfish目標函數,通過對部分標記進行隨機掩蓋,有效防止模型死記硬背,同時保留了其在下游任務中的優異表現。數據的選擇嚴格遵守合規性原則,僅使用公開可用的數據源,并充分尊重內容所有者的退出意愿,過濾掉受版權保護、非許可、有害或包含個人身份信息的內容。
預訓練數據的規模超過15萬億標記,覆蓋1800多種語言。數據來源廣泛,包括高質量的網絡爬取、代碼和數學數據等。通過多重過濾機制,確保數據的合規性和多樣性,特別是大量非英語內容的引入,為模型的跨語言能力打下了堅實基礎。
訓練過程采用了AdEMAMix優化器和WSD學習率調度,確保了訓練的穩定性和高效性。通過逐步擴展上下文長度,Apertus 能夠處理長達65,536個標記的文本序列。
后訓練階段,Apertus 經歷了指令微調和對齊訓練,并借助QRPO算法優化模型行為,使其生成的內容更加安全、有用且符合人類價值觀。
應用前景:解鎖無限可能
Apertus 的多語言能力和強大的文本生成功能,使其在多語言對話系統、代碼生成與輔助、教育與學習輔助、內容創作以及翻譯服務等眾多領域展現出廣闊的應用前景。
探索與獲取
了解更多關于Apertus的信息,可以訪問其項目官網:https://www.swiss-ai.org/apertus。在HuggingFace模型庫中,用戶可以找到Apertus的模型資源:https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059。深入的技術細節則可以在技術論文中找到:https://github.com/swiss-ai/apertus-tech-report。