一項重大原始創新,如何通過開源平臺更好地轉化?作者|蘇霍伊???編輯|王博1839年,法國人路易·達蓋爾發明銀版攝影法。他處理完照片后,曾興奮地對人們大喊:“我抓住了光!我捕捉到了它的飛行!”其中后一句并不準確:靜態照片并不能記錄光的飛行過程。從傳統膠片相機到數碼相機,都采用快門曝光原理,由快門控制光線照射到光敏材料上的時間。快門越快,進入相機的光線越少,曝光時間越短;反之,曝光時間越長。按下快門,連續動態的光子變化過程就會被壓縮成一瞬間儲存在平面靜態圖像中。電影、電視是動態視頻,也是由每秒一定幀數的靜態照片組成。“傳統相機是工業時代化學技術的產物,數碼相機雖然拋棄了膠片,但仍然采用靜態圖像和靜態圖像序列(視頻)記錄光過程,觀念上還停留在化學時代,無法有效表達光的高速變化過程。”北京大學計算機學院教授黃鐵軍說。2016年,黃鐵軍發明了一個顛覆了傳統相機快門曝光原理的新技術——脈沖連續攝影原理,脈沖相機不僅能“抓住”光,還能記錄光的飛行過程。不同于現有相機采用的定時曝光靜態成像原理,脈沖成像原理以超高速連續脈沖流逼近光的連續變化過程,采用成熟集成電路工藝、釋放電路自身潛力,研制了高速視覺芯片、相機和機器視覺系統,實現了高速、高動態、無模糊連續成像。脈沖相機模擬靈長類視網膜編碼原理,每個像素將光信號轉換成比特流,一個脈沖對應一組光子,脈沖寬度的倒數對應光強,準確完整記錄光的時空變化過程,了沿用近兩個世紀的圖像和視頻概念,是一項從0到1的重大原始創新。簡而言之,圖片是靜態的,視頻是靜態圖像序列,而脈沖流則是光子流的粗粒度表示。測試表明,脈沖相機能夠清晰拍攝對側相對速度700公里/小時的會車高鐵,采用脈沖相機拍攝北京大學6馬赫高超聲速風洞實驗,能夠清晰記錄激波形成和變化過程。今年5月,在第49屆日內瓦國際發明展上,“脈沖連續攝影原理和相機”脫穎而出,獲得最高級別的“評審團嘉許金獎”。脈沖視覺芯片與脈沖視覺相機現在,技術和產品都有了,如何將脈沖相機的科研成果更好轉化,讓更多人使用呢?1.脈沖相機的“哆啦A夢”“工欲善其事,必先利其器。”為了讓更多的用戶能夠充分利用脈沖相機,建立一個脈沖視覺的社區生態系統,來自北京大學的團隊建立了SpikeCV開源平臺。SpikeCV主要團隊成員這個平臺提供了各種超高速場景數據集、硬件接口和易于使用的模塊庫。 SpikeCV專注于封裝脈沖數據、標準化數據集接口、模塊化視覺任務以及挑戰性場景的實時應用,其可以作為一個Python庫,滿足大多數研究者在數值分析方面的需求。簡單來說,SpikeCV為脈沖相機和使用者之間架起了一座橋梁。SpikeCV開源平京大學計算機學院博雅博士后鄭雅菁和博士生張濟遠SpikeCV團隊的主要成員。在北京大學內的3W咖啡館,「甲子光年」見到了這兩位青年學者。鄭雅菁于2017年獲得四川大學計算機科學珠峰班學士學位,并于2022年獲得北京大學計算機學院博士學位,研究興趣包括神經形態計算、計算機視覺、機器學習和脈沖神經網絡等領域。鄭雅菁張濟遠于2020年獲得浙江大學計算機科學與技術學院學士學位,目前是北京大學計算機學院的博士生,研究興趣包括神經形態計算、計算機視覺和計算攝影。張濟遠他們師從黃鐵軍教授,2022年開始和團隊一起搭建了整個SpikeCV平臺,從硬件接口到數據處理,再到算法和最終的測試,每一個環節都需要仔細設計和完善。尤其是在項目的初期,團隊需要花大量時間討論整體架構,如何將硬件、數據和算法有效集成,從而組建一個模塊化、標準化且具有良好擴展性的工程化平臺。“最開始的架構設計花了很多時間,幾乎花了半年時間,不斷加班討論。”鄭雅菁回憶。“我們想為開發者打造一個‘哆啦A夢’。”張濟遠說。SpikeCV的架構有三個部分:數據集、模塊庫和設備接口。SpikeCV架構首先是數據集,SpikeCV集成了可用于驗證或訓練模型的標準化數據集。其中包含由脈沖相機或脈沖模擬器生成的真實場景,并附帶詳細的標簽信息,比如視頻、光流、深度和物體類別。SpikeCV還提供了用于記錄脈沖數據和標簽文件屬性的附加配置文件。然后是模塊庫,模塊庫主要有三個類別:數據處理、視覺模型/算法和工具。數據處理模塊SpkData包括脈沖流類、脈沖模擬器、標簽加載器和用于訓練模型的數據集接口,幫助研究人員獲得更干凈、更精準的數據流程。算法庫SpkPro有用于脈沖相機的各種視覺算法。因為它們,脈沖不再是單純的電子信號,而是能捕捉動態變化的神經網絡。而Tool是一個支持開發的工具庫,包含:Visualization——脈沖流或各類視覺任務結果的可視化;Metrics——各類視覺任務結果的定量評價指標;Utils——輔助開發工具,例如數據路徑處理等。它像是技術人員的“瑞士”,既可以用來展示數據和模型的成果,也可以對結果進行量化分析。最后是硬件接口,SpikeCV的硬件接口可以幫助用戶將基于脈沖的算法應用于實時處理硬件。目前SpikeCV已經集成了脈沖相機的硬件接口。用戶可以使用脈沖相機接口來自己拍攝場景從而收集數據集或評估算法的實時性能。整體而言,SpikeCV具有易用性、實時性的特點,還構建了一個脈沖生態,初學者也可以很快上手學習什么是脈沖數據,以及如何使用脈沖相機來處理視覺任務。SpikeCV特性如今SpikeCV的框架已經趨于成熟,團隊的重心也逐漸轉向如何將這些技術應用到更多的實際場景中。比如,自動駕駛。2.在復雜駕駛場景中更好地感知環境自動駕駛性能在很大程度上取決于感知系統。感知系統是自動駕駛汽車中的關鍵組成部分,它負責實時獲取并準確解讀車輛周圍的環境信息,為車輛的決策和控制提供可靠的數據支持。目前感知系統的主流技術方案有:以視覺相機為主的多傳感器融合方案;以激光雷達為主導、其他傳感器為輔助的技術方案;純視覺感知方案。視覺傳感器作為直接感知場景的信號源,在輔助理解駕駛場景方面發揮關鍵作用。自動駕駛感知系統,圖片來源:freepik張濟遠和鄭雅菁介紹,傳統相機成像原理在自動駕駛場景中應用會有兩個問題:自動駕駛屬于連續攝影的場景,相機曝光時間的長短將影響成像質量進而影響感知能力,曝光時間過長將使場景過曝或引入模糊,曝光時間過短則欠曝或引入更多噪聲;由于曝光時間小于幀間間隔,傳統相機的成像過程并不是連續的,丟失了時間連續性,致使感知算法無法充分利用時間上的特征。“自動駕駛中許多復雜場景為傳統視覺感知算法帶來挑戰,在路況復雜、光線變化劇烈、光線不足或存在高速的場景中,傳統相機的感知會出現錯誤,存在數據采樣冗余大、動態范圍小和時間分辨率低等問題。”張濟遠說。在適應極端環境能力方面,脈沖相機相較傳統相機存在感知優勢。比如在車輛高速駛過時類似“鬼探頭”的場景、車輛顛簸場景及光線較強時的場景,這些場景均會使傳統相機感知質量下降,產生模糊或過曝效應;而脈沖相機可以較好地恢復這些挑戰性駕駛場景的高清、高動態影像。車通環境中脈沖相機與傳統相機成像對比“利用脈沖相機的成像特點,高質量影像可從脈沖流中恢復出來,從而輔助高速駕駛場景中的視覺感知。”張濟遠告訴「甲子光年」,“脈沖視覺研究中很重要的一塊就是如何能從脈沖流中恢復影像。”“脈沖”是一個物理學術語,指在極短時間內突然發生并迅速消失的物理量的變化。脈沖視覺是一種基于脈沖信號的視覺信息處理技術。在這項技術中,每個像素點上的感光單元會在接收到的光強度超過預設閾值時產生一個脈沖信號。這些脈沖信號構成了脈沖數字流(Spike Stream),這實際上是用一系列脈沖表示二進制數據的信號,每個脈沖代表“1”,沒有脈沖代表“0”。“對于脈沖相機來說,光有這樣0和1的數據是不夠的,人們要直觀看到這些脈沖代表的圖像。”鄭雅菁解釋道。在SpikeCV推出之前,黃鐵軍團隊就在脈沖視覺影像重建方面開展了大量的研究,SpikeCV推出后,相關研究成果也整合到了SpikeCV開源平臺中。脈沖視覺影像重建研究發展時間軸就像時間與空間的“握手言和”,利用脈沖相機和傳統相機的傳感器融合方案,可以有效將脈沖流的高時間分辨率和傳統相機高空間分辨率的優勢結合起來,實現更優的感知能力。張濟遠和鄭雅菁介紹,傳統視覺和脈沖視覺融合可以恢復高動態范圍影像,讓過曝、欠曝等極端問題成為過去式,并消除視頻影像中的模糊效應等。實際應用中,常規速度情況下的駕駛感知可以只使用傳統相機,高速或光線極端情況下可以采用傳感器融合方案補償感知能力。“我們會不斷探索更前沿的東西,比如三維視覺和模態的融合。”張濟遠告訴「甲子光年」,脈沖相機的應用不僅僅局限于現有的二維成像,它將進一步拓展到更高維度的感知領域,與其他傳感器數據相結合,提供更加全面的視覺解決方案。目前,利用脈沖相機采樣連續的優點,團隊通過滑動脈沖相機就看清障礙物背后的物體,實現“見所未見”;而基于脈沖相機超高速的特點,針對自動駕駛領域比較棘手的“鬼探頭”場景,脈沖相機已經可以進行“超敏感知”。“我們基于脈沖相機做了一款針對這些場景的系統,現在已能讓機器視覺‘感知行’延遲降低至數毫秒內。”鄭雅菁說。3.“把黑箱透明化,是科學目標”1999年,杰弗里·辛頓和安德魯·布朗寫了一篇關于脈沖玻爾茨曼機(Spiking Boltzmann Machines)學習算法的論文。他們當時很希望能找到一種適合脈沖神經元的學習算法,并認為這是脈沖神經元硬件取得進展的關鍵。《Spiking Boltzmann Machines》,圖片來源:NlPS papers當時很多學者也意識到,找到適合脈沖神經元的學習算法就可以構建更加節能的硬件,建立大型系統。黃鐵軍自己也從事了十多年的脈沖神經網絡研究,他認為,未來新一代人工智能的技術路線走向有三條:第一是基于大數據和深度學習算法實現的人工智能技術路線;第二是通過強化學習,在虛擬環境不斷訓練得出的具身智能路線;第三是通過模擬生物神經系統和生物智能,最終實現智能生命技術路線。北京大學計算機學院教授黃鐵軍,圖片來源:2023甲子引力年終盛典去年,甲對話黃鐵軍時,黃鐵軍曾這樣表達:“人腦是個黑箱系統,我們所已知的只是黑箱中很有限的部分。例如,我們以為很清楚眼睛視網膜的工作原理,但實際可能只了解10%。當然,我們希望一步步分析視網膜內的信號變換過程,把黑箱透明化,這是科學目標。”2021年,一篇題為《通過卷積循環神經網絡揭示對動態自然的神經編碼(Unravelling neural coding of dynamic natural visual scenes via convolutional recurrent neural networks)》的論文發表在《細胞·模式(Cell Patterns)》上,論文提出并實現了一種基于卷積循環神經網絡的視網膜編碼模型,能夠高精度地預測大規模視網膜神經節細胞對動態自然場景的響應,同時可以學習出各個神經節細胞的感受野(神經元所反應的區域)。視網膜結構與對應的卷積循環編碼網絡論文提到,卷積循環編碼網絡不僅結構上更接近人類視網膜,還能通過更少的參數實現更高精度的編碼模型。實驗結果顯示,網絡的循環連接結構是影響視網膜編碼的關鍵因素。這一模型不僅具有生物學價值,而且對設計新一代脈沖視覺模型、芯片乃至研制視網膜假體都極具意義。這篇論文的第一作者就是鄭雅菁。目前鄭雅菁還是倫敦大學學院(UCL)的訪問學者,她在UCL的導師卡爾·弗里斯頓(Karl Friston)教授提出的“貝葉斯大腦”概念給了她很大啟發。“貝葉斯大腦”指大腦通過不斷更新對外部世界的預測來減少內部的預測誤差。脈沖相機與脈沖神經網絡 (Spiking Neural Network,SNN)的結合能夠真正實現類腦視覺的全套概念,從而提供更具生物啟發意義的視覺解決方案。人類視覺系統的高效性來源于對信息的篩選和高效處理,鄭雅菁也在研究將貝葉斯大腦與脈沖相機進行結合,將大腦的運作模式映射到視覺設備中,從而達到更智能的視覺處理方式。“脈沖相機技術不僅改變了機器如何看待世界,也改變了我們對機器視覺的理解方式。通過結合類腦計算,它能夠在復雜環境中高效工作,而不依賴高耗能的計算資源。”鄭雅菁告訴「甲子光年」。在SpikeCV團隊的GitHub主頁寫著一句口號,前半句是“我們不僅提供錘子,還制造釘子”。SpikeCV中的Spike有“脈沖”和“尖狀物”的意思。這群未名湖畔的捕光者,不僅提了“錘子”——脈沖相機,還制造了“釘子”——應用場景。但口號后半句才是他們的愿景:“捕光制電,我們想打開前所未見的視覺新世界。”(封面圖及文中未標來源圖片均由受訪者提供)END.
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
暫無評論...