AgentCLUE-ICabin

AgentCLUE-ICabin – 汽車智能座艙的AI Agent評測基準

AgentCLUE-ICabin：專為汽車智能座艙打造的AI智能體評測基準，聚焦大語言模型在復雜場景下的工具調用能力，通過12大用車場景、多輪交互及客觀0/1評估機制，全面提升智能座艙用戶體驗。

AgentCLUE-ICabin：您的智能座艙AI助手評測專家

AgentCLUE-ICabin 是一款為汽車智能座艙量身定制的AI智能體評測基準。它專注于評估大語言模型在真實用車場景下的工具調用能力，旨在推動智能座艙技術的進步。該基準以12個高度貼合國內用戶實際需求的常見用車場景為基礎，涵蓋了從日常通勤到長途自駕的廣泛出行需求。通過精心設計的1至10輪多輪交互對話，并確保每輪對話都至少調用一個工具，AgentCLUE-ICabin 能夠全面而深入地考察AI模型在復雜多變環境中的交互表現。

在評估機制上，AgentCLUE-ICabin 采用了嚴謹的0/1客觀評判標準。通過精準比對模型調用的函數與預期的一致性，以及函數執行后系統狀態的正確變化，來確保測評結果的公正與可靠。其工具集被巧妙地劃分為出行、車控、娛樂、安全和通用五大類別，總計包含超過70項功能，幾乎囊括了智能座艙的所有核心能力。整個測評流程經過精心規劃，包括場景的深度挖掘、工具集的構建、高質量對話數據的生成以及最終的答案校驗，確保了測評的科學性和實操性。

AgentCLUE-ICabin 的核心亮點

多元化場景構建：基于12個核心用車場景，如日常通勤、長途自駕、親子出行等，構建出極具代表性的測評集，全面映射用戶在各種情境下的實際用車需求。
深度多輪交互模擬：采用1至10輪的連續對話設計，每一步都要求調用至少一個工具，精確模擬用戶在智能座艙中的真實交互過程，深入考察模型的連續理解和執行能力。
全面的工具調用覆蓋：將智能座艙的工具功能細分為出行、車控、娛樂、安全、通用五大維度，涵蓋70余種具體功能，確保對模型工具調用能力的全面評估。
公正嚴謹的評估體系：運用0/1的客觀評估方式，通過比對模型調用的函數準確性及執行后的系統狀態變化，實現公平、無偏見的測評結果。
高精度數據生成與校驗：借助先進的大模型生成多輪交互式對話數據，并經過專業人工校驗和優化，形成精準的汽車智能座艙問答對，為模型訓練和評估提供堅實基礎。

AgentCLUE-ICabin 的技術基石

場景驅動的交互設計
- 場景精選：以12個典型用車場景（如日常通勤、長途自駕、家庭出行等）為藍本，精心構建測評集，力求最大程度貼合用戶在不同場景下的實際需求。
- 多輪對話設計：精心設計1至10輪的連續對話流程，要求模型在每一輪中至少調用一個工具，以此來模擬真實用戶在智能座艙中的連續交互體驗，從而評估模型在復雜對話環境下的表現。
精細化工具分類：將智能座艙內的各類工具被細致地劃分為出行、車控、娛樂、安全以及通用五大類別，共計涵蓋了70多項具體功能。例如：
- 出行服務工具：包括但不限于導航服務、實時路況查詢、附近加油站搜索等。
- 智能車控工具：涵蓋空調溫度調節、車窗開關控制、座椅位置調整等。
- 娛樂服務工具：支持音樂播放、廣播收聽、視頻觀看等功能。
- 安全服務工具：涉及胎壓監測、哨兵模式啟用、兒童鎖設置等。
- 通用工具：如座椅調節、方向盤角度調整、車內燈光控制等。
高效的工具調用機制：要求模型能夠準確地根據用戶指令調用相應的工具，并確保調用的準確性以及工具執行結果的正確性。
客觀公正的評估體系
- 0/1評分標準：通過比對模型調用的函數與預設答案的一致性，以及函數執行后系統狀態的變化情況，進行精確的對錯判斷。這種方法最大程度地保證了評估結果的客觀性和公正性。
- 多輪反饋與糾錯機制：在每輪對話中，模型最多擁有三次嘗試機會。系統會根據模型的調用結果提供相應的錯誤反饋，模型可依據反饋進行調整和優化。
智能對話數據生成：利用強大的大模型技術，生成大量模擬真實用戶與智能座艙交互的多輪對話數據。
人工校驗與優化：生成的數據及答案會經過專業人工的嚴謹校驗和細致優化，以確保數據的準確性、實用性，并形成高質量的汽車智能座艙問答對。
系統狀態追蹤與管理：在多輪交互過程中，系統會實時跟蹤和管理座艙狀態的變化。模型需要充分考慮每一步操作對系統狀態的影響，以確保后續操作的準確無誤。
狀態比對驗證：在評估階段，系統會將模型操作后的實際系統狀態與預期的目標狀態進行精確比對，從而驗證模型不僅能夠正確調用工具，還能準確地改變系統狀態。

AgentCLUE-ICabin 的獨特優勢

場景覆蓋廣度：囊括12個典型用車場景，如日常通勤、長途自駕、家庭出行等，全面貼合國內用戶的實際用車需求，確保測評結果的實用性和參考價值。
交互深度與復雜性：通過設計1至10輪的深度多輪交互對話，每輪至少調用一個工具，有力地模擬了真實用車場景下的連續對話需求，從而深入考察模型在復雜交互情境下的表現。
評估的客觀公正性：采用0/1的客觀評估機制，通過比對函數調用的一致性和系統狀態的變化來判斷對錯，有效避免了主觀評分帶來的偏差。
工具集豐富性：將智能座艙工具細分為出行、車控、娛樂、安全、通用五大類別，共計超過70項具體功能，為模型提供了極其豐富的調用選項，確保了評估的全面性。
數據的高精度與可靠性：利用大模型生成多輪交互對話數據，并經過專業人工校驗優化，形成精準的問答對，保證了測評數據的質量和準確性，為模型訓練和評估提供了可靠依據。