一群北大的年輕人,想要捕捉光|甲子光年
一項(xiàng)重大原始創(chuàng)新,如何通過開源平臺(tái)更好地轉(zhuǎn)化?作者|蘇霍伊???編輯|王博1839年,法國(guó)人路易·達(dá)蓋爾發(fā)明銀版攝影法。他處理完照片后,曾興奮地對(duì)人們大喊:“我抓住了光!我捕捉到了它的飛行!”其中后一句并不準(zhǔn)確:靜態(tài)照片并不能記錄光的飛行過程。從傳統(tǒng)膠片相機(jī)到數(shù)碼相機(jī),都采用快門曝光原理,由快門控制光線照射到光敏材料上的時(shí)間。快門越快,進(jìn)入相機(jī)的光線越少,曝光時(shí)間越短;反之,曝光時(shí)間越長(zhǎng)。按下快門,連續(xù)動(dòng)態(tài)的光子變化過程就會(huì)被壓縮成一瞬間儲(chǔ)存在平面靜態(tài)圖像中。電影、電視是動(dòng)態(tài)視頻,也是由每秒一定幀數(shù)的靜態(tài)照片組成。“傳統(tǒng)相機(jī)是工業(yè)時(shí)代化學(xué)技術(shù)的產(chǎn)物,數(shù)碼相機(jī)雖然拋棄了膠片,但仍然采用靜態(tài)圖像和靜態(tài)圖像序列(視頻)記錄光過程,觀念上還停留在化學(xué)時(shí)代,無法有效表達(dá)光的高速變化過程。”北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍說。2016年,黃鐵軍發(fā)明了一個(gè)顛覆了傳統(tǒng)相機(jī)快門曝光原理的新技術(shù)——脈沖連續(xù)攝影原理,脈沖相機(jī)不僅能“抓住”光,還能記錄光的飛行過程。不同于現(xiàn)有相機(jī)采用的定時(shí)曝光靜態(tài)成像原理,脈沖成像原理以超高速連續(xù)脈沖流逼近光的連續(xù)變化過程,采用成熟集成電路工藝、釋放電路自身潛力,研制了高速視覺芯片、相機(jī)和機(jī)器視覺系統(tǒng),實(shí)現(xiàn)了高速、高動(dòng)態(tài)、無模糊連續(xù)成像。脈沖相機(jī)模擬靈長(zhǎng)類視網(wǎng)膜編碼原理,每個(gè)像素將光信號(hào)轉(zhuǎn)換成比特流,一個(gè)脈沖對(duì)應(yīng)一組光子,脈沖寬度的倒數(shù)對(duì)應(yīng)光強(qiáng),準(zhǔn)確完整記錄光的時(shí)空變化過程,了沿用近兩個(gè)世紀(jì)的圖像和視頻概念,是一項(xiàng)從0到1的重大原始創(chuàng)新。簡(jiǎn)而言之,圖片是靜態(tài)的,視頻是靜態(tài)圖像序列,而脈沖流則是光子流的粗粒度表示。測(cè)試表明,脈沖相機(jī)能夠清晰拍攝對(duì)側(cè)相對(duì)速度700公里/小時(shí)的會(huì)車高鐵,采用脈沖相機(jī)拍攝北京大學(xué)6馬赫高超聲速風(fēng)洞實(shí)驗(yàn),能夠清晰記錄激波形成和變化過程。今年5月,在第49屆日內(nèi)瓦國(guó)際發(fā)明展上,“脈沖連續(xù)攝影原理和相機(jī)”脫穎而出,獲得最高級(jí)別的“評(píng)審團(tuán)嘉許金獎(jiǎng)”。脈沖視覺芯片與脈沖視覺相機(jī)現(xiàn)在,技術(shù)和產(chǎn)品都有了,如何將脈沖相機(jī)的科研成果更好轉(zhuǎn)化,讓更多人使用呢?1.脈沖相機(jī)的“哆啦A夢(mèng)”“工欲善其事,必先利其器。”為了讓更多的用戶能夠充分利用脈沖相機(jī),建立一個(gè)脈沖視覺的社區(qū)生態(tài)系統(tǒng),來自北京大學(xué)的團(tuán)隊(duì)建立了SpikeCV開源平臺(tái)。SpikeCV主要團(tuán)隊(duì)成員這個(gè)平臺(tái)提供了各種超高速場(chǎng)景數(shù)據(jù)集、硬件接口和易于使用的模塊庫(kù)。 SpikeCV專注于封裝脈沖數(shù)據(jù)、標(biāo)準(zhǔn)化數(shù)據(jù)集接口、模塊化視覺任務(wù)以及挑戰(zhàn)性場(chǎng)景的實(shí)時(shí)應(yīng)用,其可以作為一個(gè)Python庫(kù),滿足大多數(shù)研究者在數(shù)值分析方面的需求。簡(jiǎn)單來說,SpikeCV為脈沖相機(jī)和使用者之間架起了一座橋梁。SpikeCV開源平京大學(xué)計(jì)算機(jī)學(xué)院博雅博士后鄭雅菁和博士生張濟(jì)遠(yuǎn)SpikeCV團(tuán)隊(duì)的主要成員。在北京大學(xué)內(nèi)的3W咖啡館,「甲子光年」見到了這兩位青年學(xué)者。鄭雅菁于2017年獲得四川大學(xué)計(jì)算機(jī)科學(xué)珠峰班學(xué)士學(xué)位,并于2022年獲得北京大學(xué)計(jì)算機(jī)學(xué)院博士學(xué)位,研究興趣包括神經(jīng)形態(tài)計(jì)算、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和脈沖神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。鄭雅菁張濟(jì)遠(yuǎn)于2020年獲得浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位,目前是北京大學(xué)計(jì)算機(jī)學(xué)院的博士生,研究興趣包括神經(jīng)形態(tài)計(jì)算、計(jì)算機(jī)視覺和計(jì)算攝影。張濟(jì)遠(yuǎn)他們師從黃鐵軍教授,2022年開始和團(tuán)隊(duì)一起搭建了整個(gè)SpikeCV平臺(tái),從硬件接口到數(shù)據(jù)處理,再到算法和最終的測(cè)試,每一個(gè)環(huán)節(jié)都需要仔細(xì)設(shè)計(jì)和完善。尤其是在項(xiàng)目的初期,團(tuán)隊(duì)需要花大量時(shí)間討論整體架構(gòu),如何將硬件、數(shù)據(jù)和算法有效集成,從而組建一個(gè)模塊化、標(biāo)準(zhǔn)化且具有良好擴(kuò)展性的工程化平臺(tái)。“最開始的架構(gòu)設(shè)計(jì)花了很多時(shí)間,幾乎花了半年時(shí)間,不斷加班討論。”鄭雅菁回憶。“我們想為開發(fā)者打造一個(gè)‘哆啦A夢(mèng)’。”張濟(jì)遠(yuǎn)說。SpikeCV的架構(gòu)有三個(gè)部分:數(shù)據(jù)集、模塊庫(kù)和設(shè)備接口。SpikeCV架構(gòu)首先是數(shù)據(jù)集,SpikeCV集成了可用于驗(yàn)證或訓(xùn)練模型的標(biāo)準(zhǔn)化數(shù)據(jù)集。其中包含由脈沖相機(jī)或脈沖模擬器生成的真實(shí)場(chǎng)景,并附帶詳細(xì)的標(biāo)簽信息,比如視頻、光流、深度和物體類別。SpikeCV還提供了用于記錄脈沖數(shù)據(jù)和標(biāo)簽文件屬性的附加配置文件。然后是模塊庫(kù),模塊庫(kù)主要有三個(gè)類別:數(shù)據(jù)處理、視覺模型/算法和工具。數(shù)據(jù)處理模塊SpkData包括脈沖流類、脈沖模擬器、標(biāo)簽加載器和用于訓(xùn)練模型的數(shù)據(jù)集接口,幫助研究人員獲得更干凈、更精準(zhǔn)的數(shù)據(jù)流程。算法庫(kù)SpkPro有用于脈沖相機(jī)的各種視覺算法。因?yàn)樗鼈儯}沖不再是單純的電子信號(hào),而是能捕捉動(dòng)態(tài)變化的神經(jīng)網(wǎng)絡(luò)。而Tool是一個(gè)支持開發(fā)的工具庫(kù),包含:Visualization——脈沖流或各類視覺任務(wù)結(jié)果的可視化;Metrics——各類視覺任務(wù)結(jié)果的定量評(píng)價(jià)指標(biāo);Utils——輔助開發(fā)工具,例如數(shù)據(jù)路徑處理等。它像是技術(shù)人員的“瑞士”,既可以用來展示數(shù)據(jù)和模型的成果,也可以對(duì)結(jié)果進(jìn)行量化分析。最后是硬件接口,SpikeCV的硬件接口可以幫助用戶將基于脈沖的算法應(yīng)用于實(shí)時(shí)處理硬件。目前SpikeCV已經(jīng)集成了脈沖相機(jī)的硬件接口。用戶可以使用脈沖相機(jī)接口來自己拍攝場(chǎng)景從而收集數(shù)據(jù)集或評(píng)估算法的實(shí)時(shí)性能。整體而言,SpikeCV具有易用性、實(shí)時(shí)性的特點(diǎn),還構(gòu)建了一個(gè)脈沖生態(tài),初學(xué)者也可以很快上手學(xué)習(xí)什么是脈沖數(shù)據(jù),以及如何使用脈沖相機(jī)來處理視覺任務(wù)。SpikeCV特性如今SpikeCV的框架已經(jīng)趨于成熟,團(tuán)隊(duì)的重心也逐漸轉(zhuǎn)向如何將這些技術(shù)應(yīng)用到更多的實(shí)際場(chǎng)景中。比如,自動(dòng)駕駛。2.在復(fù)雜駕駛場(chǎng)景中更好地感知環(huán)境自動(dòng)駕駛性能在很大程度上取決于感知系統(tǒng)。感知系統(tǒng)是自動(dòng)駕駛汽車中的關(guān)鍵組成部分,它負(fù)責(zé)實(shí)時(shí)獲取并準(zhǔn)確解讀車輛周圍的環(huán)境信息,為車輛的決策和控制提供可靠的數(shù)據(jù)支持。目前感知系統(tǒng)的主流技術(shù)方案有:以視覺相機(jī)為主的多傳感器融合方案;以激光雷達(dá)為主導(dǎo)、其他傳感器為輔助的技術(shù)方案;純視覺感知方案。視覺傳感器作為直接感知場(chǎng)景的信號(hào)源,在輔助理解駕駛場(chǎng)景方面發(fā)揮關(guān)鍵作用。自動(dòng)駕駛感知系統(tǒng),圖片來源:freepik張濟(jì)遠(yuǎn)和鄭雅菁介紹,傳統(tǒng)相機(jī)成像原理在自動(dòng)駕駛場(chǎng)景中應(yīng)用會(huì)有兩個(gè)問題:自動(dòng)駕駛屬于連續(xù)攝影的場(chǎng)景,相機(jī)曝光時(shí)間的長(zhǎng)短將影響成像質(zhì)量進(jìn)而影響感知能力,曝光時(shí)間過長(zhǎng)將使場(chǎng)景過曝或引入模糊,曝光時(shí)間過短則欠曝或引入更多噪聲;由于曝光時(shí)間小于幀間間隔,傳統(tǒng)相機(jī)的成像過程并不是連續(xù)的,丟失了時(shí)間連續(xù)性,致使感知算法無法充分利用時(shí)間上的特征。“自動(dòng)駕駛中許多復(fù)雜場(chǎng)景為傳統(tǒng)視覺感知算法帶來挑戰(zhàn),在路況復(fù)雜、光線變化劇烈、光線不足或存在高速的場(chǎng)景中,傳統(tǒng)相機(jī)的感知會(huì)出現(xiàn)錯(cuò)誤,存在數(shù)據(jù)采樣冗余大、動(dòng)態(tài)范圍小和時(shí)間分辨率低等問題。”張濟(jì)遠(yuǎn)說。在適應(yīng)極端環(huán)境能力方面,脈沖相機(jī)相較傳統(tǒng)相機(jī)存在感知優(yōu)勢(shì)。比如在車輛高速駛過時(shí)類似“鬼探頭”的場(chǎng)景、車輛顛簸場(chǎng)景及光線較強(qiáng)時(shí)的場(chǎng)景,這些場(chǎng)景均會(huì)使傳統(tǒng)相機(jī)感知質(zhì)量下降,產(chǎn)生模糊或過曝效應(yīng);而脈沖相機(jī)可以較好地恢復(fù)這些挑戰(zhàn)性駕駛場(chǎng)景的高清、高動(dòng)態(tài)影像。車通環(huán)境中脈沖相機(jī)與傳統(tǒng)相機(jī)成像對(duì)比“利用脈沖相機(jī)的成像特點(diǎn),高質(zhì)量影像可從脈沖流中恢復(fù)出來,從而輔助高速駕駛場(chǎng)景中的視覺感知。”張濟(jì)遠(yuǎn)告訴「甲子光年」,“脈沖視覺研究中很重要的一塊就是如何能從脈沖流中恢復(fù)影像。”“脈沖”是一個(gè)物理學(xué)術(shù)語(yǔ),指在極短時(shí)間內(nèi)突然發(fā)生并迅速消失的物理量的變化。脈沖視覺是一種基于脈沖信號(hào)的視覺信息處理技術(shù)。在這項(xiàng)技術(shù)中,每個(gè)像素點(diǎn)上的感光單元會(huì)在接收到的光強(qiáng)度超過預(yù)設(shè)閾值時(shí)產(chǎn)生一個(gè)脈沖信號(hào)。這些脈沖信號(hào)構(gòu)成了脈沖數(shù)字流(Spike Stream),這實(shí)際上是用一系列脈沖表示二進(jìn)制數(shù)據(jù)的信號(hào),每個(gè)脈沖代表“1”,沒有脈沖代表“0”。“對(duì)于脈沖相機(jī)來說,光有這樣0和1的數(shù)據(jù)是不夠的,人們要直觀看到這些脈沖代表的圖像。”鄭雅菁解釋道。在SpikeCV推出之前,黃鐵軍團(tuán)隊(duì)就在脈沖視覺影像重建方面開展了大量的研究,SpikeCV推出后,相關(guān)研究成果也整合到了SpikeCV開源平臺(tái)中。脈沖視覺影像重建研究發(fā)展時(shí)間軸就像時(shí)間與空間的“握手言和”,利用脈沖相機(jī)和傳統(tǒng)相機(jī)的傳感器融合方案,可以有效將脈沖流的高時(shí)間分辨率和傳統(tǒng)相機(jī)高空間分辨率的優(yōu)勢(shì)結(jié)合起來,實(shí)現(xiàn)更優(yōu)的感知能力。張濟(jì)遠(yuǎn)和鄭雅菁介紹,傳統(tǒng)視覺和脈沖視覺融合可以恢復(fù)高動(dòng)態(tài)范圍影像,讓過曝、欠曝等極端問題成為過去式,并消除視頻影像中的模糊效應(yīng)等。實(shí)際應(yīng)用中,常規(guī)速度情況下的駕駛感知可以只使用傳統(tǒng)相機(jī),高速或光線極端情況下可以采用傳感器融合方案補(bǔ)償感知能力。“我們會(huì)不斷探索更前沿的東西,比如三維視覺和模態(tài)的融合。”張濟(jì)遠(yuǎn)告訴「甲子光年」,脈沖相機(jī)的應(yīng)用不僅僅局限于現(xiàn)有的二維成像,它將進(jìn)一步拓展到更高維度的感知領(lǐng)域,與其他傳感器數(shù)據(jù)相結(jié)合,提供更加全面的視覺解決方案。目前,利用脈沖相機(jī)采樣連續(xù)的優(yōu)點(diǎn),團(tuán)隊(duì)通過滑動(dòng)脈沖相機(jī)就看清障礙物背后的物體,實(shí)現(xiàn)“見所未見”;而基于脈沖相機(jī)超高速的特點(diǎn),針對(duì)自動(dòng)駕駛領(lǐng)域比較棘手的“鬼探頭”場(chǎng)景,脈沖相機(jī)已經(jīng)可以進(jìn)行“超敏感知”。“我們基于脈沖相機(jī)做了一款針對(duì)這些場(chǎng)景的系統(tǒng),現(xiàn)在已能讓機(jī)器視覺‘感知行’延遲降低至數(shù)毫秒內(nèi)。”鄭雅菁說。3.“把黑箱透明化,是科學(xué)目標(biāo)”1999年,杰弗里·辛頓和安德魯·布朗寫了一篇關(guān)于脈沖玻爾茨曼機(jī)(Spiking Boltzmann Machines)學(xué)習(xí)算法的論文。他們當(dāng)時(shí)很希望能找到一種適合脈沖神經(jīng)元的學(xué)習(xí)算法,并認(rèn)為這是脈沖神經(jīng)元硬件取得進(jìn)展的關(guān)鍵。《Spiking Boltzmann Machines》,圖片來源:NlPS papers當(dāng)時(shí)很多學(xué)者也意識(shí)到,找到適合脈沖神經(jīng)元的學(xué)習(xí)算法就可以構(gòu)建更加節(jié)能的硬件,建立大型系統(tǒng)。黃鐵軍自己也從事了十多年的脈沖神經(jīng)網(wǎng)絡(luò)研究,他認(rèn)為,未來新一代人工智能的技術(shù)路線走向有三條:第一是基于大數(shù)據(jù)和深度學(xué)習(xí)算法實(shí)現(xiàn)的人工智能技術(shù)路線;第二是通過強(qiáng)化學(xué)習(xí),在虛擬環(huán)境不斷訓(xùn)練得出的具身智能路線;第三是通過模擬生物神經(jīng)系統(tǒng)和生物智能,最終實(shí)現(xiàn)智能生命技術(shù)路線。北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍,圖片來源:2023甲子引力年終盛典去年,甲對(duì)話黃鐵軍時(shí),黃鐵軍曾這樣表達(dá):“人腦是個(gè)黑箱系統(tǒng),我們所已知的只是黑箱中很有限的部分。例如,我們以為很清楚眼睛視網(wǎng)膜的工作原理,但實(shí)際可能只了解10%。當(dāng)然,我們希望一步步分析視網(wǎng)膜內(nèi)的信號(hào)變換過程,把黑箱透明化,這是科學(xué)目標(biāo)。”2021年,一篇題為《通過卷積循環(huán)神經(jīng)網(wǎng)絡(luò)揭示對(duì)動(dòng)態(tài)自然的神經(jīng)編碼(Unravelling neural coding of dynamic natural visual scenes via convolutional recurrent neural networks)》的論文發(fā)表在《細(xì)胞·模式(Cell Patterns)》上,論文提出并實(shí)現(xiàn)了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的視網(wǎng)膜編碼模型,能夠高精度地預(yù)測(cè)大規(guī)模視網(wǎng)膜神經(jīng)節(jié)細(xì)胞對(duì)動(dòng)態(tài)自然場(chǎng)景的響應(yīng),同時(shí)可以學(xué)習(xí)出各個(gè)神經(jīng)節(jié)細(xì)胞的感受野(神經(jīng)元所反應(yīng)的區(qū)域)。視網(wǎng)膜結(jié)構(gòu)與對(duì)應(yīng)的卷積循環(huán)編碼網(wǎng)絡(luò)論文提到,卷積循環(huán)編碼網(wǎng)絡(luò)不僅結(jié)構(gòu)上更接近人類視網(wǎng)膜,還能通過更少的參數(shù)實(shí)現(xiàn)更高精度的編碼模型。實(shí)驗(yàn)結(jié)果顯示,網(wǎng)絡(luò)的循環(huán)連接結(jié)構(gòu)是影響視網(wǎng)膜編碼的關(guān)鍵因素。這一模型不僅具有生物學(xué)價(jià)值,而且對(duì)設(shè)計(jì)新一代脈沖視覺模型、芯片乃至研制視網(wǎng)膜假體都極具意義。這篇論文的第一作者就是鄭雅菁。目前鄭雅菁還是倫敦大學(xué)學(xué)院(UCL)的訪問學(xué)者,她在UCL的導(dǎo)師卡爾·弗里斯頓(Karl Friston)教授提出的“貝葉斯大腦”概念給了她很大啟發(fā)。“貝葉斯大腦”指大腦通過不斷更新對(duì)外部世界的預(yù)測(cè)來減少內(nèi)部的預(yù)測(cè)誤差。脈沖相機(jī)與脈沖神經(jīng)網(wǎng)絡(luò) (Spiking Neural Network,SNN)的結(jié)合能夠真正實(shí)現(xiàn)類腦視覺的全套概念,從而提供更具生物啟發(fā)意義的視覺解決方案。人類視覺系統(tǒng)的高效性來源于對(duì)信息的篩選和高效處理,鄭雅菁也在研究將貝葉斯大腦與脈沖相機(jī)進(jìn)行結(jié)合,將大腦的運(yùn)作模式映射到視覺設(shè)備中,從而達(dá)到更智能的視覺處理方式。“脈沖相機(jī)技術(shù)不僅改變了機(jī)器如何看待世界,也改變了我們對(duì)機(jī)器視覺的理解方式。通過結(jié)合類腦計(jì)算,它能夠在復(fù)雜環(huán)境中高效工作,而不依賴高耗能的計(jì)算資源。”鄭雅菁告訴「甲子光年」。在SpikeCV團(tuán)隊(duì)的GitHub主頁(yè)寫著一句口號(hào),前半句是“我們不僅提供錘子,還制造釘子”。SpikeCV中的Spike有“脈沖”和“尖狀物”的意思。這群未名湖畔的捕光者,不僅提了“錘子”——脈沖相機(jī),還制造了“釘子”——應(yīng)用場(chǎng)景。但口號(hào)后半句才是他們的愿景:“捕光制電,我們想打開前所未見的視覺新世界。”(封面圖及文中未標(biāo)來源圖片均由受訪者提供)END.