Chinese SafetyQA是全球第一個針對中文安全領域的系統性評估模型安全事實性知識的高質量評測集。
原標題:中國信通院聯合淘天集團發布全球首個中文安全領域事實性基準評測集,僅三個大模型達及格線
文章來源:機器之心
內容字數:10901字
中國信息通信研究院與淘天集團聯合發布中文安全知識評測集Chinese SafetyQA
本文介紹了中國信息通信研究院與淘天集團聯合推出的Chinese SafetyQA,一個針對中文安全領域的系統性評估大語言模型(LLMs)安全事實性知識的高質量評測集。該數據集旨在評估LLMs在復雜法律、政策和倫理領域的安全性,彌補現有評測方法的不足,并促進大模型在中文語境下的安全應用。
一、大語言模型安全性的挑戰
1. 安全知識理解的深度和準確性:LLMs的安全性能與其對安全知識的理解程度密切相關,需要具備高準確性、全面性和清晰度,尤其在法律、政策和倫理等敏感領域。傳統的安全評測方法存在局限性,容易出現“虛假對齊”現象,即模型在特定場景下給出正確答案,但在其他場景下缺乏泛化性。
2. 知識缺乏導致的安全風險:知識缺乏會導致模型產生幻覺、不準確等問題,進而引發安全風險。因此,準確評估模型對安全相關知識的掌握程度至關重要。
3. 國際與國內安全研究的側重點差異:國際上,安全研究側重有害意圖、越獄攻擊和違反國際ESG規定;中國則更關注模型是否符合中國法律、政策、道德和主流價值觀。因此,需要開發一種全面且無偏的評測框架,以適應不同地區的需求。
二、Chinese SafetyQA 的特點
1. 專注中文和中國安全知識:數據集使用中文,并聚焦于中國相關的安全知識,包括法律框架、道德標準和文化環境。
2. 高質量和全面性:評測了38個國內外開源和閉源大模型,涵蓋7個一級類目、27個二級類目和103個子類目,全面覆蓋中國內容安全相關知識。
3. 易于評估:提供QA和MCQ兩種問題形式,問題和答案簡短清晰。
4. 定期迭代和穩定性:數據定期迭代,以保證其對最新法律法規的適應性,現有版本數據知識截止于2023年底。
5. 無害化:所有問題都是合法合規的無害化內容。
三、評測結果與進一步實驗
1. 模型參數規模與性能正相關:參數規模更大的模型通常表現更好。
2. 中國大模型在中文安全問答上具有優勢:這體現了中國企業在高質量中文語料庫構建和利用方面的優勢。
3. 模型普遍存在認知一致性問題和“舌尖現象”:模型往往過度自信,且在多選題中表現優于問答題。
4. 自我反思機制對知識性缺失的幫助有限:在知識缺失場景下,自我反思機制的提升效果微乎其微。
5. RAG技術有效提升模型的事實安全性:被動RAG優于主動RAG。
四、結論
Chinese SafetyQA 為評估LLMs中文安全知識提供了一個客觀公正的工具,有助于更好地理解和提升LLMs在安全領域的應用能力。數據集開源部分可供行業共享,閉源部分則用于持續監測大模型安全水平提升情況。該研究也揭示了LLMs在安全領域面臨的挑戰和改進方向,為未來的研究和發展提供了 valuable insights。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺