国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

游戲bug幫大模型學(xué)物理!準(zhǔn)確率超GPT4o近4個(gè)百分點(diǎn)

AIGC動(dòng)態(tài)9個(gè)月前發(fā)布 量子位
482 0 0

PhysVLM團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI融合物理知識(shí)的大型視頻語言模型PhysVLM,開源了!它不僅在 PhysGame 基準(zhǔn)上展現(xiàn)出最先進(jìn)的性能,還在通用視頻理解基準(zhǔn)上(Video-MME, VCG)表現(xiàn)出領(lǐng)先的性能。在這項(xiàng)研究之前,想讓AI像人類兒童一樣,通過觀察世界理解基本的物理常識(shí),是一個(gè)主要挑戰(zhàn)。對(duì)于現(xiàn)實(shí)世界的視頻來說,全面覆蓋和解釋所有正常的物理現(xiàn)象既困難又不必要。相比之下,游戲視頻(gameplay videos)通常包含違反物理常識(shí)的“故障現(xiàn)象”(glitches),這有助于簡化物理常識(shí)理解的定義和評(píng)估,即專注于解釋物理常識(shí)的違反現(xiàn)象,而不是試圖列舉所有存在的正常物理現(xiàn)象。為此,PhysVLM在專門整理的一套數(shù)據(jù)集上訓(xùn)練,包括用于評(píng)估的PhysGame benchmark、用于監(jiān)督微調(diào)的PhysInstruct數(shù)據(jù)集和用于偏好對(duì)齊的PhysDPO數(shù)據(jù)集。PhysGame benchmark 設(shè)計(jì)如圖所示,PhysGame包含880個(gè)含有故障現(xiàn)象的游戲視頻,每個(gè)視頻都配有一個(gè)高質(zhì)量的多項(xiàng)選擇題,專門針對(duì)故障現(xiàn)象的性質(zhì)進(jìn)行標(biāo)注。△PhysGame類別分布PhysGame涵蓋了四個(gè)關(guān)鍵的物理領(lǐng)域(即力學(xué)、學(xué)、光學(xué)和材料屬性),并細(xì)分為12個(gè)具體類別(如重力和速度)。力學(xué)(Mechanics):該類別涉及力與力矩及其對(duì)的影響,提供了解釋和分析視頻中物體的基礎(chǔ)原理。典型案例包括重力、彈性和摩擦力。學(xué)(Kinematics):該領(lǐng)域研究不考慮力的情況下的,涉及精細(xì)分類,如隨時(shí)間變化的速度和加速度。光學(xué)(Optics):該領(lǐng)域關(guān)注光的行為與特性及其與物質(zhì)的相互作用,包括反射、折射以及吸收與透射。材料屬性(Material properties):該領(lǐng)域指的是物質(zhì)固有的特性,包括顏色、剛性、物體形狀以及人體姿態(tài)。PhysGame benchmark構(gòu)建視頻收集和過濾:PhysGame中的視頻主要從Reddit頁面抓取,該頁面包含帶有異常和故障現(xiàn)象的游戲視頻。為了平衡不同的類別,團(tuán)隊(duì)還通過關(guān)鍵詞搜索從 YouTube增強(qiáng)視頻數(shù)據(jù)。團(tuán)隊(duì)根據(jù)以下兩項(xiàng)標(biāo)準(zhǔn)進(jìn)行人工篩查:重復(fù)檢查:Reddit論壇可能會(huì)多次引用同一視頻,導(dǎo)致重復(fù)下載。團(tuán)隊(duì)手動(dòng)檢查,確保PhysGame benchmark中的視頻不存在重復(fù);內(nèi)容檢查:下載的視頻可能包含非游戲元素,團(tuán)隊(duì)對(duì)這些內(nèi)容進(jìn)行了嚴(yán)格篩選,確保它們不被納入PhysGame benchmark中。選項(xiàng)生成:本文以多項(xiàng)選擇題的形式創(chuàng)建問答對(duì)。具體來說,正確選項(xiàng)描述了視頻中違反物理常識(shí)原則的特定故障現(xiàn)象。為了增強(qiáng)干擾選項(xiàng)的可信度,本文要求干擾選項(xiàng)中的故障現(xiàn)象應(yīng)與視頻中觀察到的個(gè)體或動(dòng)作高度相關(guān),這使視頻LLM理解故障內(nèi)容,而不僅僅通過識(shí)別包含的物體或動(dòng)作來選擇答案。質(zhì)量控制:為了保證數(shù)據(jù)集的質(zhì)量,本文進(jìn)行了一項(xiàng)包括人工檢查和自動(dòng)LLM輔助檢查在內(nèi)的雙重質(zhì)量控制過程:人工檢查:所有初步標(biāo)注的問答對(duì)都經(jīng)過不同人工標(biāo)注人員的嚴(yán)格交叉檢查。對(duì)于正確選項(xiàng),檢查人員必須評(píng)估它們是否全面準(zhǔn)確地描述了所有存在的物理常識(shí)違反實(shí)例。對(duì)于干擾選項(xiàng),檢查人員需評(píng)估它們是否足夠具有迷惑性;LLM 輔助檢查:團(tuán)隊(duì)去除那些僅憑問題和選項(xiàng),不需要查看視頻就能由GPT-4o正確回答的問答對(duì)。△PhysGame示例PhysInstruct&PhysDPO數(shù)據(jù)集構(gòu)建PhysInstruct:為了提升視頻LLM的物理常識(shí)理解能力,團(tuán)隊(duì)開發(fā)了PhysInstruct數(shù)據(jù)集用于監(jiān)督微調(diào)。視頻收集過程與PhysGame中的流程相同。為了防止數(shù)據(jù)泄漏,團(tuán)隊(duì)嚴(yán)格排除任何已包含在PhysGame中的視頻。團(tuán)隊(duì)遵循Self-instruct范式通過提示GPT-4o來構(gòu)建PhysInstruct。PhysDPO:團(tuán)隊(duì)構(gòu)建了偏好對(duì)齊數(shù)據(jù)集PhysDPO,以提供更可信和可靠的回答。如圖3所示,團(tuán)隊(duì)將PhysInstruct 數(shù)據(jù)集中生成的答案視為preferred回答,而dis-preferred回答則通過元信息篡改(meta-information hacking)、時(shí)間篡改(temporal hacking)和空間篡改(spatial hacking)生成。團(tuán)隊(duì)用誤導(dǎo)性的元信息以及減少幀數(shù)和降低幀分辨率的視頻幀來提示 GPT-4o。以下是PhysDPO數(shù)據(jù)集構(gòu)建流程圖:模型評(píng)估與分析PhysGame benchmark 實(shí)驗(yàn)結(jié)果:在所有專有模型中,GPT-4o和Gemini-1.5-pro表現(xiàn)最佳,分別達(dá)到了56.1%和55.2%的平均準(zhǔn)確率。在所有細(xì)分領(lǐng)域中,GPT-4o在摩擦和加速度方面表現(xiàn)優(yōu)越。相比之下,Gemini-1.5-pro在理解與重力、彈性、反射、吸收與透射、顏色和剛性相關(guān)的物理常識(shí)方面表現(xiàn)更強(qiáng)。現(xiàn)有的開源模型遠(yuǎn)遠(yuǎn)落后于專有模型。即便是表現(xiàn)最好的開源模型 LLaVA-OneVision,其平均準(zhǔn)確率僅為47.7%。相比之下,本文提出的PhysVLM在所有專有和開源模型中都達(dá)到了最先進(jìn)的性能。與開源方法相比,本文的PhysVLM在12個(gè)評(píng)估領(lǐng)域中的6個(gè)領(lǐng)域達(dá)到了最高性能。值得注意的是,PhysVLM-DPO在平均準(zhǔn)確率這一指標(biāo)上比最佳表現(xiàn)的專有模型GPT-4o超出了3.4%。△PhysGame benchmark實(shí)驗(yàn)結(jié)果Video-MME benchmark實(shí)驗(yàn)結(jié)果:本文的PhysVLM模型在所有7B模型中表現(xiàn)優(yōu)越。令人驚訝的是,作為7B模型,PhysVLM-SFT和PhysVLM-DPO在整體表現(xiàn)上分別比 34B 模型 LLaVA-NeXT-Video提高了3.2%和3.8%的絕對(duì)值。通過比較PhysVLM-SFT和PhysVLM-DPO,團(tuán)隊(duì)發(fā)現(xiàn),使用所提出的PhysDPO數(shù)據(jù)進(jìn)行 DPO訓(xùn)練在短視頻和長視頻上的表現(xiàn)都有所提升,而在中等長度的視頻上的表現(xiàn)略有下降。△Video-MME benchmark實(shí)驗(yàn)結(jié)果VCG benchmark實(shí)驗(yàn)結(jié)果:在僅使用SFT的模型中,本文的PhysVLM-SFT在平均得分方面表現(xiàn)最佳。在四個(gè)子類別的評(píng)估中,PhysVLM-SFT在信息正確性和一致性類別上表現(xiàn)尤為出色。與使用DPO或PPO訓(xùn)練的PPLLaVA和LLaVA-Next-Video相比,本文的PhysVLM-DPO也展現(xiàn)出卓越的性能,進(jìn)一步驗(yàn)證了所提出的PhysVLM模型在通用視頻理解中的出色能力。△VCG benchmark實(shí)驗(yàn)結(jié)果PhysVLM相關(guān)論文、代碼、數(shù)據(jù)均已開源:pre-prints:https://arxiv.org/abs/2412.01800代碼鏈接:https://github.com/PhysGame/PhysGameleaderboard:https://physgame.github.io/#leaderboard—完—投稿請(qǐng)發(fā)郵件到:ai@qbitai.com標(biāo)題注明【投稿】,告訴我們:你是誰,從哪來,投稿內(nèi)容?附上論文/項(xiàng)目主頁鏈接,以及聯(lián)系方式哦我們會(huì)(盡量)及時(shí)回復(fù)你點(diǎn)這里?關(guān)注我,記得標(biāo)星哦~一鍵三連「分享」、「點(diǎn)贊」和「在看」科技前沿進(jìn)展日日相見 ~

閱讀原文
? 版權(quán)聲明
蟬鏡AI數(shù)字人

相關(guān)文章

蟬鏡AI數(shù)字人

暫無評(píng)論

暫無評(píng)論...
国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片
<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        欧美一区二区三区在线电影| 91精品国产手机| 久久成人免费日本黄色| 国产一区不卡视频| 99精品久久只有精品| 欧美精品免费视频| 国产亚洲1区2区3区| 一区二区高清视频在线观看| 丝袜亚洲另类欧美| av在线不卡电影| 日韩一区二区三区视频在线| 欧美韩国日本不卡| 一区二区三区久久久| 蜜桃精品视频在线| 色综合天天做天天爱| 日韩精品一区二| 亚洲永久免费视频| 国产成人综合自拍| 在线综合亚洲欧美在线视频| 1000部国产精品成人观看| 久久精品99国产国产精| 在线精品亚洲一区二区不卡| 国产日韩欧美电影| 免费观看在线色综合| av在线这里只有精品| 欧美成人女星排行榜| 亚洲激情图片一区| 国产.欧美.日韩| 精品毛片乱码1区2区3区| 亚洲福利电影网| 99久久久精品免费观看国产蜜| 精品久久国产老人久久综合| 亚洲不卡一区二区三区| 97久久精品人人做人人爽50路| 亚洲精品一区二区三区四区高清 | 欧美激情一区在线观看| 亚洲二区在线视频| 99久久精品国产一区二区三区| 精品少妇一区二区三区日产乱码 | 久久精品欧美一区二区三区不卡 | 国产在线播放一区| 在线不卡欧美精品一区二区三区| 亚洲丝袜美腿综合| 国产v综合v亚洲欧| 久久精品人人做人人爽人人| 另类欧美日韩国产在线| 在线不卡一区二区| 天堂久久久久va久久久久| 欧美日韩精品一区二区三区四区| 国产精品久久久久一区二区三区 | 欧美一区二区视频观看视频| 亚洲亚洲人成综合网络| 在线观看三级视频欧美| 亚洲日本在线看| 色狠狠综合天天综合综合| 亚洲丝袜另类动漫二区| 色婷婷综合久久久久中文| 一区二区三区日本| 日本久久精品电影| 亚洲成av人综合在线观看| 精品视频999| 日韩高清在线电影| 精品久久久久av影院| 国产精品一区二区在线观看不卡| 国产午夜精品美女毛片视频| 成人在线一区二区三区| 日韩美女精品在线| 色婷婷国产精品久久包臀| 亚洲国产精品久久久久秋霞影院| 欧美少妇性性性| 免费av成人在线| 久久久久国产精品厨房| www.日韩av| 亚洲一级二级在线| 日韩欧美你懂的| 成人在线视频一区二区| 亚洲乱码国产乱码精品精98午夜 | **网站欧美大片在线观看| 欧美中文字幕久久| 看电视剧不卡顿的网站| 国产精品久久久99| 欧美日本国产视频| 韩国一区二区视频| 国产精品久久久久久久久免费桃花 | 玉米视频成人免费看| 欧美午夜在线观看| 美女网站在线免费欧美精品| 久久久不卡网国产精品二区| 92精品国产成人观看免费| 国产日产亚洲精品系列| 色综合天天综合网天天狠天天| 国产91精品欧美| 制服丝袜成人动漫| 亚洲精品视频在线观看网站| 欧美三区免费完整视频在线观看| 日本韩国欧美在线| 欧美一区日本一区韩国一区| 国产欧美日韩不卡| 久久99久国产精品黄毛片色诱| 国产伦精一区二区三区| 成人免费视频一区| 黄色日韩网站视频| 国产高清在线观看免费不卡| 粉嫩一区二区三区在线看 | 国产一区二区三区日韩| 中文字幕一区二区在线播放| 欧美色涩在线第一页| 国产精品456露脸| 欧美美女一区二区在线观看| 国产成人在线视频网址| 成人久久18免费网站麻豆| 日韩精品欧美精品| 国产成人精品在线看| 成人久久久精品乱码一区二区三区| 色婷婷久久一区二区三区麻豆| 成人高清视频在线观看| 色欧美片视频在线观看 | 国产婷婷一区二区| 国产激情精品久久久第一区二区| 亚洲国产精品精华液ab| 色综合久久99| 奇米精品一区二区三区在线观看 | 国内精品第一页| 亚洲视频一区在线| 久久综合色播五月| 91麻豆精品91久久久久同性| 99riav久久精品riav| 国产不卡一区视频| 国产麻豆日韩欧美久久| 久久99精品国产.久久久久久| 午夜精品久久久久影视| 亚洲一区二区影院| 亚洲欧洲成人自拍| 国产欧美日韩在线| 久久久激情视频| www国产精品av| 久久综合久久久久88| 日韩欧美中文一区| 日韩欧美色电影| 日韩一级片网站| 欧美一区二区三区免费视频| 欧美一区二区精美| 日韩精品一区在线| 久久只精品国产| 国产精品无遮挡| 中文字幕一区二区三区蜜月| 成人免费在线播放视频| 国产精品久久久久国产精品日日| 国产精品每日更新| 国产精品全国免费观看高清 | 日本不卡的三区四区五区| 亚洲电影一区二区| 亚洲一区二区三区国产| 亚洲综合一区二区三区| 亚洲欧美激情视频在线观看一区二区三区 | 五月天激情小说综合| 日韩高清一区二区| 狠狠色狠狠色综合| 成人免费电影视频| 欧美怡红院视频| 欧美一区二区三区色| www国产精品av| 中文字幕亚洲区| 亚洲一区在线视频观看| 蜜臀av性久久久久蜜臀aⅴ| 久久99久久精品| av在线一区二区| 欧美欧美午夜aⅴ在线观看| 日韩欧美色综合| 国产精品理论片在线观看| 亚洲午夜av在线| 韩国精品主播一区二区在线观看 | 日本系列欧美系列| 国产精品白丝av| 日本乱人伦aⅴ精品| 欧美岛国在线观看| 综合久久久久久| 蜜桃久久久久久| 99re成人精品视频| 日韩一级免费一区| 亚洲欧美乱综合| 激情五月婷婷综合| 色天天综合久久久久综合片| 日韩三级av在线播放| 亚洲视频免费在线| 久久99精品久久久久久久久久久久| 成人免费看黄yyy456| 欧美一区二区三区四区五区| 中文字幕亚洲一区二区av在线| 日产精品久久久久久久性色| 99久久精品情趣| 欧美精品一区二区三区视频| 亚洲一区日韩精品中文字幕| 国产 日韩 欧美大片| 日韩午夜电影在线观看| 亚洲柠檬福利资源导航| 韩国v欧美v日本v亚洲v| 欧美精品久久一区二区三区| 亚洲欧美中日韩| 丁香婷婷综合色啪|