<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        游戲bug幫大模型學物理!準確率超GPT4o近4個百分點

        AIGC動態5個月前發布 量子位
        477 0 0

        PhysVLM團隊 投稿量子位 | 公眾號 QbitAI融合物理知識的大型視頻語言模型PhysVLM,開源了!它不僅在 PhysGame 基準上展現出最先進的性能,還在通用視頻理解基準上(Video-MME, VCG)表現出領先的性能。在這項研究之前,想讓AI像人類兒童一樣,通過觀察世界理解基本的物理常識,是一個主要挑戰。對于現實世界的視頻來說,全面覆蓋和解釋所有正常的物理現象既困難又不必要。相比之下,游戲視頻(gameplay videos)通常包含違反物理常識的“故障現象”(glitches),這有助于簡化物理常識理解的定義和評估,即專注于解釋物理常識的違反現象,而不是試圖列舉所有存在的正常物理現象。為此,PhysVLM在專門整理的一套數據集上訓練,包括用于評估的PhysGame benchmark、用于監督微調的PhysInstruct數據集和用于偏好對齊的PhysDPO數據集。PhysGame benchmark 設計如圖所示,PhysGame包含880個含有故障現象的游戲視頻,每個視頻都配有一個高質量的多項選擇題,專門針對故障現象的性質進行標注。△PhysGame類別分布PhysGame涵蓋了四個關鍵的物理領域(即力學、學、光學和材料屬性),并細分為12個具體類別(如重力和速度)。力學(Mechanics):該類別涉及力與力矩及其對的影響,提供了解釋和分析視頻中物體的基礎原理。典型案例包括重力、彈性和摩擦力。學(Kinematics):該領域研究不考慮力的情況下的,涉及精細分類,如隨時間變化的速度和加速度。光學(Optics):該領域關注光的行為與特性及其與物質的相互作用,包括反射、折射以及吸收與透射。材料屬性(Material properties):該領域指的是物質固有的特性,包括顏色、剛性、物體形狀以及人體姿態。PhysGame benchmark構建視頻收集和過濾:PhysGame中的視頻主要從Reddit頁面抓取,該頁面包含帶有異常和故障現象的游戲視頻。為了平衡不同的類別,團隊還通過關鍵詞搜索從 YouTube增強視頻數據。團隊根據以下兩項標準進行人工篩查:重復檢查:Reddit論壇可能會多次引用同一視頻,導致重復下載。團隊手動檢查,確保PhysGame benchmark中的視頻不存在重復;內容檢查:下載的視頻可能包含非游戲元素,團隊對這些內容進行了嚴格篩選,確保它們不被納入PhysGame benchmark中。選項生成:本文以多項選擇題的形式創建問答對。具體來說,正確選項描述了視頻中違反物理常識原則的特定故障現象。為了增強干擾選項的可信度,本文要求干擾選項中的故障現象應與視頻中觀察到的個體或動作高度相關,這使視頻LLM理解故障內容,而不僅僅通過識別包含的物體或動作來選擇答案。質量控制:為了保證數據集的質量,本文進行了一項包括人工檢查和自動LLM輔助檢查在內的雙重質量控制過程:人工檢查:所有初步標注的問答對都經過不同人工標注人員的嚴格交叉檢查。對于正確選項,檢查人員必須評估它們是否全面準確地描述了所有存在的物理常識違反實例。對于干擾選項,檢查人員需評估它們是否足夠具有迷惑性;LLM 輔助檢查:團隊去除那些僅憑問題和選項,不需要查看視頻就能由GPT-4o正確回答的問答對。△PhysGame示例PhysInstruct&PhysDPO數據集構建PhysInstruct:為了提升視頻LLM的物理常識理解能力,團隊開發了PhysInstruct數據集用于監督微調。視頻收集過程與PhysGame中的流程相同。為了防止數據泄漏,團隊嚴格排除任何已包含在PhysGame中的視頻。團隊遵循Self-instruct范式通過提示GPT-4o來構建PhysInstruct。PhysDPO:團隊構建了偏好對齊數據集PhysDPO,以提供更可信和可靠的回答。如圖3所示,團隊將PhysInstruct 數據集中生成的答案視為preferred回答,而dis-preferred回答則通過元信息篡改(meta-information hacking)、時間篡改(temporal hacking)和空間篡改(spatial hacking)生成。團隊用誤導性的元信息以及減少幀數和降低幀分辨率的視頻幀來提示 GPT-4o。以下是PhysDPO數據集構建流程圖:模型評估與分析PhysGame benchmark 實驗結果:在所有專有模型中,GPT-4o和Gemini-1.5-pro表現最佳,分別達到了56.1%和55.2%的平均準確率。在所有細分領域中,GPT-4o在摩擦和加速度方面表現優越。相比之下,Gemini-1.5-pro在理解與重力、彈性、反射、吸收與透射、顏色和剛性相關的物理常識方面表現更強。現有的開源模型遠遠落后于專有模型。即便是表現最好的開源模型 LLaVA-OneVision,其平均準確率僅為47.7%。相比之下,本文提出的PhysVLM在所有專有和開源模型中都達到了最先進的性能。與開源方法相比,本文的PhysVLM在12個評估領域中的6個領域達到了最高性能。值得注意的是,PhysVLM-DPO在平均準確率這一指標上比最佳表現的專有模型GPT-4o超出了3.4%。△PhysGame benchmark實驗結果Video-MME benchmark實驗結果:本文的PhysVLM模型在所有7B模型中表現優越。令人驚訝的是,作為7B模型,PhysVLM-SFT和PhysVLM-DPO在整體表現上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對值。通過比較PhysVLM-SFT和PhysVLM-DPO,團隊發現,使用所提出的PhysDPO數據進行 DPO訓練在短視頻和長視頻上的表現都有所提升,而在中等長度的視頻上的表現略有下降。△Video-MME benchmark實驗結果VCG benchmark實驗結果:在僅使用SFT的模型中,本文的PhysVLM-SFT在平均得分方面表現最佳。在四個子類別的評估中,PhysVLM-SFT在信息正確性和一致性類別上表現尤為出色。與使用DPO或PPO訓練的PPLLaVA和LLaVA-Next-Video相比,本文的PhysVLM-DPO也展現出卓越的性能,進一步驗證了所提出的PhysVLM模型在通用視頻理解中的出色能力。△VCG benchmark實驗結果PhysVLM相關論文、代碼、數據均已開源:pre-prints:https://arxiv.org/abs/2412.01800代碼鏈接:https://github.com/PhysGame/PhysGameleaderboard:https://physgame.github.io/#leaderboard—完—投稿請發郵件到:ai@qbitai.com標題注明【投稿】,告訴我們:你是誰,從哪來,投稿內容?附上論文/項目主頁鏈接,以及聯系方式哦我們會(盡量)及時回復你點這里??關注我,記得標星哦~一鍵三連「分享」、「點贊」和「在看」科技前沿進展日日相見 ~

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲精品无码mⅴ在线观看| 亚洲午夜久久久久久噜噜噜| 国产精品亚洲lv粉色| 久久久久久久亚洲精品| **一级一级毛片免费观看| 亚洲AV无码成人网站在线观看| 亚洲精品线路一在线观看| 91短视频免费在线观看| 国产精品亚洲综合天堂夜夜| 亚洲国产二区三区久久| 国产无遮挡吃胸膜奶免费看| 嫩草在线视频www免费观看| 亚洲午夜成人精品无码色欲| 亚洲无线观看国产精品| 波多野结衣久久高清免费| 久久久久久久岛国免费播放| 免费精品国自产拍在线播放| 亚洲精品无码久久久久久久| 亚洲福利中文字幕在线网址| 免费观看AV片在线播放| 日本道免费精品一区二区| 老司机午夜免费视频| 亚洲av成人一区二区三区| 亚洲精品无码成人AAA片| 国产精品高清全国免费观看| 5g影院5g天天爽永久免费影院| 免费看内射乌克兰女| 中文无码亚洲精品字幕| 亚洲国产成人久久精品动漫| 亚洲无码日韩精品第一页| 免费黄色网址入口| 又大又硬又爽又粗又快的视频免费| 一个人晚上在线观看的免费视频| 国产精品亚洲综合五月天| 久久亚洲精品无码VA大香大香| 国产成人亚洲综合无码| 国产禁女女网站免费看| 国产免费av片在线看| 最近2022中文字幕免费视频| 叮咚影视在线观看免费完整版| 成在线人直播免费视频|