RAG 驅動的 Copilot 為 Uber 節省了 13,000 個工程小時

作者 | Eran Stiller
譯者 | 王強
策劃 | Tina Uber 最近詳細介紹了它構建 Genie 的經歷，這是一款由 AI 驅動的隨時待命的 Copilot，旨在提高隨時待命的支持工程師的效率。Genie 利用檢索增強生成（RAG）技術提供準確的實時響應，并顯著提高響應的速度和效率。自 2023 年 9 月推出以來，Genie 對 Uber 的支持團隊產生了重大影響。它已在 154 個 Slack 頻道中回答了超過 70，000 個問題，節省了大約 13，000 個工程小時，根據用戶的評估，其回答有效率為 48.9%。Uber 的待命工程師通常花費大量時間答復重復的查詢或瀏覽零散的文檔，使用戶難以找到答案。這些情況導致了響應時間過長和生產力下降，這也是構建 Genie 的驅動力。Uber 使用檢索增強生成（RAG）來驅動 Genie。RAG 是一種創新方法，它將信息檢索系統的優勢與生成式 AI 模型相結合，以產生準確且相關的響應。它讓 Uber 可以利用現有知識來源快速部署解決方案，這樣就用不著 AI 模型微調所需的大量示例數據了。Genie 從各種內部來源提取數據，例如 Uber 的 wiki、Stack Overflow 和工程文檔。信息被抓取后，使用 OpenAI 模型轉換為向量嵌入，并存儲在 Uber 的內部向量數據庫 Search In Action（SIA）中。Genie 僅從預先批準的數據源提取數據，且不包含敏感數據，以避免泄露敏感信息。Genie 的整體架構（來源）當用戶在 Slack 中提出問題時，查詢會被轉換為嵌入，Genie 會使用該嵌入在向量數據庫中獲取上下文相似的數據。然后它將這些數據輸入到大型語言模型中，以根據檢索到的信息生成準確的響應。Uber 實施了一個指標框架，通過持續的實時用戶反饋來提高 Genie 的性能。在 Genie 回答問題后，用戶可以通過選擇“已解決”、“有幫助”或“不相關”等選項來提供反饋。Genie 的用戶反饋流程（來源）這些反饋通過 Slack 插件收集，并使用 Uber 的內部數據流系統處理，將指標發送到 Hive 表中分析。反饋循環允許 Uber 的團隊跟蹤 Genie 的幫助有效率，并根據真實的用戶體驗改進其響應。對于性能評估，Uber 設計了一個自定義評估管道，用于評估各種指標，例如幻覺率和響應的相關性。該管道處理的是歷史數據，包括 Slack 元數據、用戶反饋和 Genie 以前的響應。它通過由 LLM 提供支持的評分系統來處理這些數據，用這個系統充當評判者。Uber 還采用了一套文檔評估流程，以保障 Genie 在其響應中檢索和使用的信息的質量。系統將抓取的知識庫轉換為結構化格式，其中一行代表一個文檔。文檔評估應用程序的工作流程（來源）Genie 將這些文檔輸入帶有自定義評估提示的 LLM 來評估每個文檔的清晰度、準確性和實用性。然后，LLM 返回分數并提供改進每個文檔的可行建議。此過程有助于保持底層文檔的高標準，確保 Genie 的響應保持可靠和有效。查看原文鏈接：https://www.infoq.com/news/2024/10/uber-genie-rag-copilot/聲明：本文為 InfoQ 翻譯，未經許可禁止轉載。會議推薦12 月 13 日至 14 日（周五至周六），AICon 全球人工智能開發與應用大會將在北京盛大開幕！本次大會匯聚 70+ 位 AI 及技術領域的頂尖專家，深入探討大模型與推理、AI Agent、多模態、具身智能等前沿話題。此外還有豐富的圓桌論壇、以及展區活動，帶你深入探索大模型的最新實踐與未來趨勢。年度最后一次 AI 盛宴，讓我們一起見證 AI 未來。今日薦文阿里合伙人為“爹味發言”道歉：自罰三個月工資；美圖出售加密貨幣獲利5.7億；虧損11億、上市對賭失敗，公司啟動全員降薪 | AI周報OpenAI深夜炸場！一口氣放出o1模型全家桶，月費200美元的ChatGPT Pro被狂槽：Altman只想躺在上數錢谷歌最強世界模型“硬控”OpenAI 一分鐘：智能體交互、替你玩游戲！等等，智能體們早在游戲里 cosplay、交友了！被字節索賠 800 萬實習生奪 NeurIPS 最佳論文，豆包 team 邀同屆獲獎人現場 chat！網友：字節要錢還是要人？裁掉 1.5 萬人后，英特爾傳奇 CEO ：18 歲入職，風雨 40 載，如今成了“背鍋俠”？你也「在看」嗎？?

閱讀原文