Apertus

Apertus – 瑞士開源的首個大規模語言模型

Apertus：瑞士首個大規模開放多語言大型語言模型，支持70B和8B參數版本，注重數據隱私與控制，并大幅提升了對包括瑞士德語、羅曼什語在內的小語種支持。

Apertus：賦能開放、多語言AI新紀元

Apertus，作為瑞士科技界的一項重要突破，是由瑞士聯邦理工學院（EPFL）、蘇黎世聯邦理工學院（ETH Zurich）以及瑞士國家超級計算中心（CSCS）聯合打造的。這款模型不僅是瑞士首個大規模開放的大型語言模型（LLM），更在多語言能力上實現了質的飛躍，為全球用戶帶來了前所未有的AI體驗。

核心亮點：開放、多語言與數據

Apertus 的核心在于其全面開放的特性，用戶可以獲取模型權重、訓練數據及詳細的訓練過程，并可在本地服務器部署，從而完全掌控自身的數據隱私。在多語言支持方面，Apertus 表現尤為突出，其訓練數據中高達40%為非英語內容，涵蓋了瑞士德語、羅曼什語等此前在LLM領域被忽視的語言，極大地拓寬了AI的應用邊界。

該模型擁有70B和8B兩個參數版本，采用先進的僅解碼器Transformer架構，并引入了創新的xIELU激活函數和AdEMAMix優化器，顯著提升了模型的效率和長上下文處理能力。

技術實力：驅動AI的強大引擎

在模型架構上，Apertus 采用了高效的密集解碼器Transformer設計，70B版本擁有80層與64個注意力頭，8B版本則為32層與32個注意力頭。通過xIELU激活函數、RMSNorm歸一化、RoPE位置編碼和分組查詢注意力機制，Apertus 在處理長文本序列和提升效率方面表現卓越。

預訓練目標方面，Apertus 運用Goldfish目標函數，通過對部分標記進行隨機掩蓋，有效防止模型死記硬背，同時保留了其在下游任務中的優異表現。數據的選擇嚴格遵守合規性原則，僅使用公開可用的數據源，并充分尊重內容所有者的退出意愿，過濾掉受版權保護、非許可、有害或包含個人身份信息的內容。

預訓練數據的規模超過15萬億標記，覆蓋1800多種語言。數據來源廣泛，包括高質量的網絡爬取、代碼和數學數據等。通過多重過濾機制，確保數據的合規性和多樣性，特別是大量非英語內容的引入，為模型的跨語言能力打下了堅實基礎。

訓練過程采用了AdEMAMix優化器和WSD學習率調度，確保了訓練的穩定性和高效性。通過逐步擴展上下文長度，Apertus 能夠處理長達65,536個標記的文本序列。

后訓練階段，Apertus 經歷了指令微調和對齊訓練，并借助QRPO算法優化模型行為，使其生成的內容更加安全、有用且符合人類價值觀。

應用前景：解鎖無限可能

Apertus 的多語言能力和強大的文本生成功能，使其在多語言對話系統、代碼生成與輔助、教育與學習輔助、內容創作以及翻譯服務等眾多領域展現出廣闊的應用前景。

探索與獲取

了解更多關于Apertus的信息，可以訪問其項目官網：https://www.swiss-ai.org/apertus。在HuggingFace模型庫中，用戶可以找到Apertus的模型資源：https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059。深入的技術細節則可以在技術論文中找到：https://github.com/swiss-ai/apertus-tech-report。

閱讀原文