gpt-oss

gpt-oss – OpenAI開源的推理模型系列

GPT-OSS 是 OpenAI 推出的開源推理模型系列，包含 gpt-oss-120b 和 gpt-oss-20b 兩個版本。這兩個模型均基于 MoE 架構，支持 128k 上下文長度，性能接近閉源模型，在工具調用、少樣本函數調用、鏈式思考推理及健康問答等方面表現出色。gpt-oss-120b 擁有 1170 億參數，激活參數約 51 億，能在單張 80GB GPU 上運行；gpt-oss-20b 擁有 210 億參數，激活參數約 36 億，能在 16GB 內存的消費級設備上運行。模型基于 Apache 2.0 許可證開源，支持免費商用，為開發者提供強大的本地推理能力。

認識 GPT-OSS

GPT-OSS，全稱為 OpenAI 推出的開源推理模型系列，為開發者提供了強大的本地推理解決方案。它包含兩個版本：gpt-oss-120b 和 gpt-oss-20b。這兩個模型的核心在于其 MoE（混合專家）架構設計，賦予它們出色的性能表現。GPT-OSS 能夠勝任多種任務，包括工具調用、少樣本函數調用、鏈式思考推理以及健康問答等，性能可與閉源模型媲美。值得一提的是，GPT-OSS 基于 Apache 2.0 許可證開源，允許免費商用，為開發者提供了極大的靈活性。

GPT-OSS 的核心功能

工具賦能：GPT-OSS 能夠調用外部工具，如網頁搜索、Python 代碼解釋器，從而解決復雜問題，增強問題解決能力。
鏈式思維：它具備鏈式思考能力，能夠將復雜問題分解為多個步驟，逐步解決，尤其適合多步驟推理任務。
靈活部署：gpt-oss-20b 能夠在 16GB 內存的設備上運行，滿足消費級設備的需求；gpt-oss-120b 則可在 80GB GPU 上運行，滿足高性能需求。
快速響應：推理速度可達 40-50 tokens/s，確保在需要快速響應的場景中表現出色。
開放：提供完整的模型權重和代碼，支持本地微調和定制，滿足特定任務需求。
推理強度可調：支持低、中、高三種推理強度，用戶可以根據實際需求進行調整，實現延遲與性能之間的平衡。

GPT-OSS 的技術揭秘

模型架構：基于 Transformer 架構，GPT-OSS 采用了混合專家（MoE）技術，減少了處理輸入所需的活躍參數數量，從而提升了推理效率。它還采用了交替的密集和局部帶狀稀疏注意力模式，類似于 GPT-3，進一步優化了內存和計算效率。此外，分組多查詢注意力機制（分組大小為 8）和 RoPE 位置編碼（支持最長 128k 的上下文長度）也被應用于其中，以提升推理效率和上下文處理能力。
訓練歷程：GPT-OSS 經過了精心設計和訓練。預訓練階段，它使用了高質量的純文本數據集，重點關注 STEM、編程和通用知識領域。后訓練階段則采用了與 o4-mini 類似的流程，包括監督式微調和高計算量的強化學習階段。訓練目標是讓模型符合 OpenAI 模型規范，具備鏈式推理和工具調用能力。
量化與優化：GPT-OSS 采用了 MXFP4 格式進行量化，模型在訓練階段就適應了低精度環境，確保在減少模型體積的同時保持高性能。gpt-oss-20b 量化后模型大小約為 12.8GB，可在 16GB 內存設備上運行。gpt-oss-120b 量化后可在 80GB 內存中運行。此外，GPT-OSS 還與 NVIDIA、AMD 等硬件廠商合作，確保模型在各類系統上實現性能優化。
安全機制：GPT-OSS 在安全方面也下足了功夫。在預訓練階段，它會過濾與化學、生物、放射性和核（CBRN）相關的有害數據。通過審慎對齊和指令優先級評估，訓練模型拒絕不安全提示并抵御注入攻擊。此外，GPT-OSS 還會在特定領域（如生物學和網絡安全）進行對抗性微調，評估并優化模型的安全性。

GPT-OSS 的性能表現

基準測試表現：
- 編程競賽：在 Codeforces 競賽編程測試中，gpt-oss-120b 取得了 2622 分，gpt-oss-20b 取得了 2516 分，表現優于部分開源模型，略遜于閉源的 o3 和 o4-mini。
- 通用問題解決：在 MMLU 和 HLE 測試中，gpt-oss-120b 表現優于 OpenAI 的 o3-mini，并接近 o4-mini 的水平。
- 工具調用能力：在 TauBench 智能體評估套件中，gpt-oss-120b 和 gpt-oss-20b 的表現均優于 OpenAI 的 o3-mini，達到或超過了 o4-mini 的水平。
- 健康問答：在 HealthBench 測試中，gpt-oss-120b 的表現超越了 o4-mini，而 gpt-oss-20b 則達到了與 o3-mini 相當的水平。