AIGC動態歡迎閱讀
原標題:大模型“取長補短”新思路入選NeurIPS'24,顯著優于現有路由方法,南科大港科大出品
關鍵字:樣本,準確率,對比,損失,高效
文章來源:量子位
內容字數:0字
內容摘要:
RouterDC團隊 投稿量子位 | 公眾號 QbitAI高效組合多個大模型“取長補短”新思路,被頂會NeurIPS 2024接收。
名為RouterDC,是一種基于雙重對比學習的路由架構,具有參數高效性(小于100M的參數)和計算高效性(不需要對于LLM進行梯度回傳)的優勢。
在具有挑戰性語言理解、代碼生成和數學推理等推理任務實驗中,RouterDC在分布內(+2.76%)和分布外(+1.90%)設定下,都遠超于現有的routing方法。
眾所周知,LLM通常在不同數據集上預訓練和微調,導致它們在不同任務上的性能強弱不同。
LLM路由則是一種組合多個LLM的新思路,它通過學習一個路由器(Router)來為每一個請求(query)選擇最合適的LLM。在推理時,LLM路由只需要調用所選的LLM進行推理,使其在保持計算高效性的同時利用多個LLM的互補能力。
RouterDC這種新方法,包括一個較小的語言模型作為編碼器和一系列與候選LLM對應的可學習的LLM embeddings。
對于訓練數據中的每個query,首先將候選LLM的預測與真實標簽進行比較獲得表現最好和最差的LLM,然后構造兩
原文鏈接:大模型“取長補短”新思路入選NeurIPS'24,顯著優于現有路由方法,南科大港科大出品
聯系作者
文章來源:量子位
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...