Meta公布黑科技:戴上腕帶即可隔空打字,引領(lǐng)神經(jīng)接口AR
新智元報(bào)道編輯:peter東 喬楊【新智元導(dǎo)讀】只需要在手腕上戴一個(gè)腕帶,就能夠?qū)崿F(xiàn)隔空打字。Meta近期推出的開(kāi)源表面肌電圖(sEMG)數(shù)據(jù)集,可進(jìn)行姿態(tài)估計(jì)和表面類型識(shí)別,推動(dòng)神經(jīng)接口發(fā)展。每一個(gè)新的計(jì)算平臺(tái)都帶來(lái)了我們與設(shè)備互動(dòng)方式的范式轉(zhuǎn)變。鼠標(biāo)的發(fā)明為今天主導(dǎo)PC世界的圖形用戶界面(GUIs)鋪平了道路,而智能手機(jī)直到觸摸屏的出現(xiàn)才開(kāi)始真正獲得影響力。同樣的規(guī)則也適用于可穿戴設(shè)備和AR,想象一下,在晨跑時(shí)只需輕輕一觸指尖就能拍照,或者用幾乎察覺(jué)不到的手部動(dòng)作來(lái)導(dǎo)航菜單。AR時(shí)代革新人機(jī)交互在Connect 2024大會(huì)上,Meta展示了EMG腕帶與Orion增強(qiáng)現(xiàn)實(shí)眼鏡的產(chǎn)品原型。這兩大神器疊加在一起,科幻電影中才會(huì)出現(xiàn)的「隔空打字」場(chǎng)景或許即將實(shí)現(xiàn)。Orion AR眼鏡meta推出的肌電圖腕帶戴上這樣一個(gè)腕帶,你讓雙手舒適地放在身側(cè),同時(shí)進(jìn)行鼠標(biāo)的滑動(dòng)、點(diǎn)擊和滾動(dòng)等操作,無(wú)縫控制數(shù)字內(nèi)容。未來(lái)還將有許多其他應(yīng)用場(chǎng)景,包括在增強(qiáng)現(xiàn)實(shí)中操縱物體,或者像在鍵盤上打字一樣——甚至更快,快速輸入完整信息,幾乎無(wú)需費(fèi)力。在近日的NeurIPS 2024 的「數(shù)據(jù)集和基」子會(huì)場(chǎng)中,Meta發(fā)布了兩個(gè)數(shù)據(jù)集——emg2qwerty 和 emg2pose,展示在硬件層面僅僅依靠腕帶的情況下,如何產(chǎn)生比細(xì)微手勢(shì)更豐富的輸入數(shù)據(jù)集。原文地址:https://arxiv.org/abs/2410.20081原文地址:https://arxiv.org/abs/2412.02725v1用于隔空打字的數(shù)據(jù)集emg2qwerty表面肌電圖(sEMG)是在皮膚表面測(cè)量由肌肉產(chǎn)生的電勢(shì),它能夠檢測(cè)到由單個(gè)神經(jīng)元引起的活動(dòng),同時(shí)是非侵入性的。具體來(lái)說(shuō),對(duì)于單個(gè)的脊髓神經(jīng)元,其細(xì)胞于脊髓中,向肌纖維中投射一條長(zhǎng)軸突,每條肌纖維只被一個(gè)神經(jīng)元支配。脊髓神經(jīng)元放電時(shí),就會(huì)觸發(fā)它支配的所有肌纖維收縮,同時(shí)放大了來(lái)自神經(jīng)元的電脈沖。正是這些來(lái)自肌纖維的電信號(hào),可被皮膚上的sEMG傳感器檢測(cè)到。用于數(shù)據(jù)收集的表面肌電圖研究設(shè)備(sEMG-RD)及其腕圍電極放置的示意圖基于腕帶的打字系統(tǒng)旨在解決可穿戴設(shè)備的文本輸入問(wèn)題,實(shí)現(xiàn)無(wú)需物理鍵盤的觸摸打字。僅使用手腕上檢測(cè)到的肌肉電信號(hào),系統(tǒng)將可自動(dòng)解碼并對(duì)應(yīng)至虛擬現(xiàn)實(shí)中投影的計(jì)算機(jī)鍵盤按鍵。這意味著,用戶未來(lái)可以在沒(méi)有物理鍵盤的情況下,無(wú)論在桌子上、腿上還是廚房桌子上打字,都能如同在實(shí)際鍵盤上一樣輸入。一個(gè)針對(duì)提示「the quickbrown fox」的表面肌電圖(sEMG)記錄示例,顯示左右腕帶上32通道的表面肌電圖信號(hào)和按鍵時(shí)間;垂直線表示按鍵開(kāi)始,每個(gè)電極通道的信號(hào)經(jīng)過(guò)高通濾波emg2qwerty數(shù)據(jù)集包括從兩只手腕獲取的高分辨率sEMG 信號(hào),與QWERTY 鍵盤的真實(shí)按鍵同步。該數(shù)據(jù)集總計(jì)包含108名參與者完成的、涵蓋廣泛?jiǎn)巫趾途渥哟蜃痔崾镜?46小時(shí)記錄,共計(jì)超過(guò)520萬(wàn)次按鍵。emg2qwerty數(shù)據(jù)集分割的可視化。每一列代表一個(gè)用戶,每一個(gè)方塊代表一個(gè)會(huì)話,方塊的高度表示其持續(xù)時(shí)間如何僅通過(guò)表面肌電圖數(shù)據(jù)中檢測(cè)到用戶按了哪個(gè)鍵呢?為了解決這個(gè)核心問(wèn)題,Meta開(kāi)發(fā)了受自動(dòng)語(yǔ)音識(shí)別(ASR)領(lǐng)域啟發(fā)的方法。該方法同樣模擬了給定連續(xù)多通道時(shí)間序列下,預(yù)測(cè)離散字符輸出序列的任務(wù)。為了給emg2qwerty構(gòu)建強(qiáng)大的基線,Meta嘗試了新穎的網(wǎng)絡(luò)架構(gòu)、不同的訓(xùn)練損失以及語(yǔ)言模型的使用,始終關(guān)注表面肌電圖數(shù)據(jù)的獨(dú)特領(lǐng)域特征要求。研究發(fā)現(xiàn),在100個(gè)用戶的規(guī)模上,盡管生理、解剖、行為、帶寬大小和傳感器放置存在差異,用戶間的泛化仍然可出現(xiàn)。當(dāng)使用大約半小時(shí)的個(gè)體用戶打字?jǐn)?shù)據(jù)來(lái)個(gè)性化模型時(shí),性能的進(jìn)一步提升隨之而來(lái)。通過(guò)整合語(yǔ)言模型來(lái)優(yōu)化結(jié)果,可將字符錯(cuò)誤率降至 10%以下——這個(gè)值被認(rèn)為是一個(gè)使文本模型可用的關(guān)鍵閾值。隨著數(shù)據(jù)集的增加,類似語(yǔ)言模型中的Scaling Law將會(huì)生效,從而使得對(duì)用戶輸入的預(yù)測(cè)更加準(zhǔn)確。emg2pose姿態(tài)估計(jì):可完全預(yù)測(cè)用戶的手部配置另一個(gè)名為emg2pose的數(shù)據(jù)集,旨在解決肌電信號(hào)與手部之間的映射問(wèn)題,這對(duì)于人機(jī)交互、康復(fù)工程和虛擬現(xiàn)實(shí)等領(lǐng)域具有重要意義。該數(shù)據(jù)集包含來(lái)自193名參與者的370小時(shí)sEMG和手部姿態(tài)數(shù)據(jù),從29個(gè)不同的行為組中采集,包括拳頭、從一數(shù)到五等眾多動(dòng)作。數(shù)據(jù)集包含25253個(gè)HDF5文件,合計(jì)達(dá)到431GB。每個(gè)文件包含時(shí)間對(duì)齊的2kHz表面肌電圖數(shù)據(jù)和單手在單一階段的關(guān)節(jié)角度。手部姿態(tài)標(biāo)簽是通過(guò)高分辨率動(dòng)作捕捉陣列生成的。完整數(shù)據(jù)集包含超過(guò)8000萬(wàn)個(gè)姿態(tài)標(biāo)簽,其等效規(guī)模已經(jīng)可以與最大的計(jì)算機(jī)視覺(jué)數(shù)據(jù)集比肩。emg2pose數(shù)據(jù)集組成:a)sEMG-RD腕帶和動(dòng)作捕捉標(biāo)記(白色圓點(diǎn))設(shè)置 b)數(shù)據(jù)集分解;i)用戶被提示執(zhí)行一系列動(dòng)作類型(手勢(shì)),如上下計(jì)數(shù),同時(shí)記錄 sEMG 和姿態(tài) ii)特定手勢(shì)類型的組合構(gòu)成一個(gè)階段emg2pose數(shù)據(jù)集的主要特點(diǎn)在于其高頻率的表面肌電圖記錄(2kHz)與精確的動(dòng)作捕捉數(shù)據(jù)相結(jié)合,提供了對(duì)手部細(xì)微的深入洞察。此外,數(shù)據(jù)集包含詳細(xì)的元數(shù)據(jù),如用戶ID、會(huì)話、階段、手部側(cè)向、是否移動(dòng)等,便于進(jìn)行多樣化的分析和實(shí)驗(yàn)。數(shù)據(jù)集還提供了訓(xùn)練、測(cè)試和驗(yàn)證的劃分,支持多種泛化類型的研究,包括跨用戶、跨階段以及跨用戶和階段的泛化。在基準(zhǔn)測(cè)試中,emg2pose還提供了具有競(jìng)爭(zhēng)力的基線和具有挑戰(zhàn)性的任務(wù),這些任務(wù)評(píng)估了在排除用戶、傳感器放置和手勢(shì)姿態(tài)方面的物理世界泛化場(chǎng)景。該研究還介紹了一種新的最先進(jìn)模型,用于從表面肌電圖進(jìn)行姿態(tài)估計(jì)的 vemg2pose模型,通過(guò)整合對(duì)姿態(tài)速度的預(yù)測(cè)來(lái)重建手勢(shì)姿態(tài)。研究人員將emg2pose以及另外兩種當(dāng)代基線用于sEMG的姿態(tài)估計(jì),并分析了它們?cè)诜夯瘲l件下的性能。結(jié)果顯示:emg2pose模型在對(duì)不同用戶的數(shù)據(jù)集進(jìn)行預(yù)測(cè)時(shí),僅顯示1厘米誤差,從而在廣泛的范圍內(nèi)實(shí)現(xiàn)了高保真跟蹤。在不同采集階段及不同用戶間,基于vemg2pose預(yù)測(cè)的泛化能力emg2pose不僅提升了動(dòng)作識(shí)別的準(zhǔn)確性,還為手勢(shì)控制、康復(fù)治療等有潛在的應(yīng)用可能。在醫(yī)療康復(fù)領(lǐng)域,通過(guò)分析患者的sEMG信號(hào),可以實(shí)時(shí)監(jiān)測(cè)和評(píng)估手部功能的恢復(fù)情況,為個(gè)性化康復(fù)方案的制定提供科學(xué)依據(jù);在人機(jī)交互領(lǐng)域,該數(shù)據(jù)集支持開(kāi)發(fā)更加自然和精準(zhǔn)的手勢(shì)控制系統(tǒng),提升用戶體驗(yàn);此外,emg2pose還可應(yīng)用于虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)中,實(shí)現(xiàn)更加逼真的手部動(dòng)作捕捉和交互。參考資料:https://x.com/perlinwarp/status/1864745303796257236

粵公網(wǎng)安備 44011502001135號(hào)