精準預測美國失業率和貧困率，谷歌人口動態基礎模型PDFM已開源，可增強現有地理空間模型

作者：梅菜編輯：十九谷歌提出人口動態基礎模型 PDFM，并在涵蓋健康、社會經濟與環境的 27 項任務中，對 PDFM 進行了插值、外推和超分辨率問題的基準測試，結果顯示該模型性能表現優異。PDFM 還可與最先進的預測基礎模型 (TimesFM) 結合，成功預測失業率和貧困率。疾病、經濟危機、失業、災害……人類世界長期以來被各種各樣的問題「侵擾」，了解人口動態對于解決這類復雜的社會問題至關重要。相關人員可以通過人口動態數據來模擬疾病的傳播，預測房價和失業率，甚至預測經濟危機。然而，在過去幾十年間，如何準確預測人口動態，對研究人員和政策制定者來說一直是一項挑戰。傳統了解人口動態的方法往往依賴于人口普查、調查或衛星圖像數據。這些數據固然很有價值，但它們各自都有自己的缺點。比如，人口普查雖然全面，但無法頻繁進行且成本高昂；調查可以提供局部見解，但往往缺乏規模和普遍性；衛星圖像提供了廣泛的概覽，但缺乏有關人類活動的詳細信息。為了彌補這些缺點，多年來，谷歌構建了大量數據集，希望了解人口行為特征。近日，谷歌提出了一種新穎的人口動態基礎模型 (Population Dynamics Foundation Model， PDFM)，利用機器學習整合了全球范圍內可用的豐富地理空間數據，大大擴展了傳統地理空間模型的能力。在涵蓋健康、社會經濟與環境的 27 項任務中，研究人員對 PDFM 進行了插值、外推和超分辨率問題的基準測試。研究發現，在所有 27 項任務的插值中，PDFM 均實現了最先進性能；在外推和超分辨率任務中，有 25 項取得了最佳表現。研究人員還展示了 PDFM 可以與最先進的預測基礎模型 (TimesFM) 結合，成功預測失業率和貧困率，性能優于完全監督的預測方法。相關研究以「General Geospatial Inference with a Population Dynamics Foundation Model」為題，發表于 arXiv。同時，研究人員在 GitHub 上發布了所有 PDFM 嵌入和示例代碼，便于研究社區將其應用于新的用例，進一步賦能學術研究與實踐。PDFM 項目開源地址：https://github.com/google-research/population-dynamic研究亮點：* 研究人員引入了一種解耦嵌入架構，將嵌入維度按數據來源進行分區，確保模型能夠關注所有輸入并保留每種數據的相關信息，同時為下游任務提供數據源級的可解釋性* 研究人員展示了如何使用 PDFM 增強最先進的預測基礎模型 TimesFM，從而改善縣級失業率和郵政編碼級貧困率的預測。類似方法也可用于利用 PDFM 嵌入增強其他現有地理空間分類和回歸模型* 通過在插值、外推、超分辨率和預測任務中的強勁表現，研究人員證明 PDFM 可以輕松擴展到需要地理空間建模的多種應用場景，包括科研、公益事業、公共與環境健康，以及商業領域論文地址：https://arxiv.org/abs/2411.07207關注公眾號，后臺回復「人口動態基礎模型」獲取完整 PDF開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀，并提供海量數據集與工具：https://github.com/hyperai/awesome-ai4s數據集：五大通用數據集為了開發 PDFM，研究人員收集并整理了 5 大數據集，覆蓋郵政編碼和縣級的地理區域，具體如下：① 聚合搜索趨勢數據集 (Aggregated Search Trends)：研究人員計算了 2022 年 7 月前 500 個查詢的聚合計數 (aggregate counts），要求其在每個郵政編碼區域內搜索次數至少為 20 ，從而形成了超過 100 萬條獨特查詢。然后其按這些查詢的全國范圍流行度進行排名，以每個查詢出現的郵政編碼總數為指標，從中選取了最常見的前 1，000 條查詢，作為全國郵政編碼級別聚合搜索趨勢活動的代表。② 地圖數據集 (Maps)：研究人員選取了 2024 年 5 月 Google Maps 中最常見的 1，192 種興趣點類別，這些類別至少出現在 5% 的郵政編碼中。每個類別覆蓋了廣泛的興趣點位置，例如，「醫療設施」類別包括兒童醫院和大學醫院。然后其計算了每個地理邊界內可用設施的總數，并在郵政編碼和縣級生成了一個歸一化的 1，192 維特征向量。③ 繁忙度數據集 (Busyness)：對于地圖數據中的每個興趣點類別，研究人員計算了這些類別在一個月內相關地點的訪問量總和，以概括這些類別的繁忙度。④ 天氣與空氣質量 (Weather & Air Quality)：研究人員收集了天氣和空氣質量數據，并對 2022 年 7 月的逐小時數據進行了匯總，使用均值、最小值和最大值進行描述。完整的變量列表包括：平均海平面氣壓、總云量、10 米高度 U 風分量、10 米高度 V 風分量、2 米高度溫度、2 米高度溫度、太陽輻射、總降水率、空氣質量指數、一氧化碳濃度、二氧化氮濃度、臭氧濃度、二氧化硫濃度、可吸入顆粒物 (<10μm) 濃度、細顆粒物 (<2.5μm) 濃度。⑤ 遙感數據 (Remote Sensing)：研究人員結合了從 SatCLIP 的 ViT16-L40 版本模型生成的衛星圖像嵌入數據，以每個郵政編碼的質心為索引獲取嵌入。SatCLIP 模型旨在成為一個全球通用的地理位置編碼器，匯總了從 2021 年 1 月 1 日至 2023 年 5 月 17 日期間的 Sentinel-2 衛星影像中的 10 萬個圖塊。研究人員結合數據集與圖神經網絡 (GNN) 架構，訓練了一個生成嵌入的基礎模型，這些嵌入具有普適性而非針對某一特定任務。模型架構：使用 GNN 高效直觀地解決地理空間問題PDFM 模型的構建如下圖所示：在第 1 階段 (Phase 1)，研究人員結合數據集與圖神經網絡 (GNN) 架構，訓練一個生成嵌入 (Embeddings) 的基礎模型，這些嵌入具有普適性而非針對某一特定任務；在第 2 階段 (Phase 2)，利用這些嵌入 (Embeddings) 和現有任務的特定真實數據 (Groundtruth Data)，學習一個下游模型 (如線性回歸、簡單的多層感知器或梯度增強決策樹)，從而將其應用于多種任務，包括插值 (interpolation)、外推 (extrapolation)、超分辨率 (super-resolution)和預測 (forecasting)。* 插值任務：是指根據已知數據點的值，通過推斷和填補未知數據點的值* 外推任務：是指通過已有的數據或經驗推斷超出當前已知范圍的情境、趨勢或結果* 超分辨率任務：是指通過算法將低分辨率圖像或數據提升為高分辨率圖：人口動態基礎模型 PDFM 的訓練與應用具體而言，PDFM 模型的核心是圖神經網絡 (GNN)，它將位置嵌入編碼為信息豐富的低維數值向量，主要有以下 5 個部分：* 圖的構建：研究人員使用縣級和郵政編碼作為節點，通過近鄰關系建立邊，構建了一個異質的地理空間圖。構建的地理空間圖具有同質的節點集，將郵政編碼和縣級節點視為相同類型的節點集，并且具有異質的邊集，邊的類型不同，連接著節點。* 子圖采樣：進行子圖采樣，以便為大規模 GNN 的訓練創建子圖，并為模型添加隨機性。其從種子節點開始，按照廣度優先方式遍歷每個邊集，以加權的方式采樣固定數量的節點，并在到達四跳距離 (four hops) 時終止。具體而言，研究人員從種子節點開始，按照廣度優先方式遍歷每個邊集，以加權的方式采樣固定數量的節點，并在到達四跳距離時終止。這種方法導致的子圖數量等于郵政編碼和縣級節點的總數。* 預處理：對所有特征應用按列標準化，并通過裁剪壓縮特征值范圍的極端端點。* 建模與訓練細節：采用 GraphSAGE (一種歸納方法) 來通過利用節點特征信息學習節點嵌入。GraphSAGE 可從局部鄰域聚合信息中學習生成嵌入的函數。對于聚合架構，使用 GraphSAGE 中提出的池化架構，其中來自鄰域節點的節點狀態通過一個帶有 ReLU 轉換的全連接層進行傳遞，轉化后的舊狀態和鄰域節點狀態通過逐元素加和的方式進一步聚合。研究人員使用 GraphSAGE 架構來促進一次消息傳遞，經過 GNN 層后，添加一個大小為 330 的線性層，將節點級表示編碼成壓縮的嵌入。* 超參數調優：從 20% 的種子節點 (包括縣和郵政編碼) 中均勻采樣，組成驗證集進行調優，調優的超參數包括丟棄率、節點嵌入的大小、GraphSAGE 隱藏單元和層的數量、嵌入大小、正則化和學習率。研究結果：在插值、外推、超分辨率和預測任務中表現強勁PDFM 是一種靈活的基礎模型框架，能夠應對美國大陸范圍內的多種地理空間挑戰。通過整合多樣化的數據集，PDFM 嵌入在 27 項健康、社會經濟和環境任務中，超越了現有的最先進 (SoTA) 位置編碼方法 (如 SatCLIP 和 GeoCLIP)。在插值任務中，PDFM 在所有 27 項任務上表現出色；在外推和超分辨率任務中，則在 25 項任務中領先。此外，研究人員展示了 PDFM 嵌入如何增強預測模型 (如TimesFM) 的性能，從而改進對縣級失業率和郵政編碼級貧困率等重要社會經濟指標的預測。這都凸顯了其在研究、社會公益、公共與環境健康以及商業領域中的廣泛應用潛力。具體實驗結果如下：① 插值實驗下圖展示了在健康 (Health)、社會經濟 (Socioeconomic category) 和環境 (Environmental) 三個類別的 27 項任務上的完整插值實驗結果，使用 ??2 指標評估不同模型性能（較高值表示模型更好地解釋了目標變量標簽的方差）。如圖，PDFM 在社會經濟和健康任務類別中顯著優于 SatCLIP 和 GeoCLIP。圖：插值 ??2 結果 (值越高越好)下表顯示了 PDFM 在 27 個健康、社會經濟和環境任務，比如收入 (Income)、房屋價值 (HomeValue)、夜間燈光 (NightLights)、人口密度 (PopulationDensity)、樹木覆蓋率 (TreeCover)、海拔高度 (Elevation)、健康狀況平均值 (Health (mean) 中的插值效果。PDFM 始終表現優異，在所有 27 個任務上的平均 ??2 為 0.83，其中 21 項健康相關任務的平均 ??2 為 0.73。表：插值 ??2 結果 (值越高越好)。這些實驗比較了基于逆距離加權 (IDW) 插值、SatCLIP 嵌入、GeoCLIP 嵌入、PDFM 嵌入及其子組件（天氣與空氣質量、聚合搜索趨勢、地圖和繁忙度）的表現，使用 GBDT 作為下游模型。② 外推實驗下圖展示了在健康 (Health)、社會經濟 (Socioeconomic category) 和環境 (Environmental) 三個類別的 27 項任務上的完整外推實驗結果，依然使用 ??2 指標評估模型性能。如圖，盡管 GeoCLIP 在處理環境任務時稍占優勢，PDFM 在預測健康和社會經濟變量方面明顯優于其他所有基線模型。圖：外推 ??2 結果 (值越高越好)由于標注數據存在顯著缺失，外推任務是一項具有挑戰性的任務。在這種情況下，PDFM 展示了優異的性能，如下表所示，在所有指標上的平均 ??2 為 0.70，健康相關指標的 ??2 為 0.58。利用地理標記圖像，GeoCLIP 在樹木覆蓋率 (TreeCover) 預測中表現出色，達到 ??2 =0.69，超越了 PDFM 和任何單一模態。然而，整體上，PDFM 在 27 項任務中的 25 項上超越了基線模型，突顯其在外推場景中的有效性。表：外推 ??2 結果 (值越高越好)③ 超分辨率實驗下圖展示了 27 個任務的超分辨率實驗完整結果，任務按健康 (Health)、社會經濟 (Socioeconomic category) 和環境 (Environmental) 分組，使用縣內平均皮爾遜相關系數 (r) 作為指標（較高值表示模型的預測值與郵政編碼級別的真實標簽更相關）。圖：平均皮爾遜相關系數結果 (值越高越好)超分辨率任務難度較大，結果總結見下表，IDW 在預測海拔任務 (Elevation task) 中表現最佳，而 GeoCLIP 在樹木覆蓋率任務中表現最佳。總體而言，PDFM 在 27 項任務中的 25 項上表現優異，平均皮爾遜相關系數為 0.48。表：平均皮爾遜相關系數結果 (值越高越好)④ 預測任務研究人員還評估了使用 PDFM 嵌入來修正 TimesFM (一種通用單變量預測基礎模型) 預測誤差的效果，其主要目標是評估這些嵌入在未來時段（6 個月的失業率預測和兩年的貧困率預測）中的改進效果。下表中的結果顯示，結合 PDFM 嵌入的模型在 MAPE 指標上超越了 TimesFM 的基線性能，也優于 ARIMA——這表明 PDFM 嵌入能顯著增強 TimesFM 的預測效果。表：預測實驗結果研究人員基于美國縣級失業率和郵政編碼級貧困率對性能進行了評估，并在表中呈現了平均絕對百分比誤差 (MAPE，值越低表示性能越優)地理空間人工智能 (GeoAI) 蓬勃發展PDFM 模型的誕生，可以說是對地理空間數據的又一次深入挖掘和利用。所謂地理空間數據，通常涉及從許多不同來源以不同格式收集的大量時空數據，可以包括普查數據、衛星圖像、天氣數據、手機數據、繪制圖像和社交媒介數據等信息。通過科學的方式共享、分析和使用地理空間數據，能夠為人類社會發展提供許多有益的洞察，比如預測失業率、房價，模擬某種藥物的影響或是災后人口的遷移等等。不過，海量的地理空間數據如何有效處理是一項挑戰，隨著人工神經網絡模型的出現，地理空間人工智能（GeoAI）的概念應運而生，業界也在此方面做出了許多探索。比如，2024 年 4 月，為了提升成礦預測模型的可解釋性，以及成礦過程中因地質因素導致的空間非平穩性，浙江大學的研究團隊提出了一種新的地理空間人工智能方法——地理神經網絡加權邏輯回歸 (geographically neural network-weighted logistic regression， GNNWLR) 。該模型集成了空間模式 (spatial patterns) 和神經網絡，結合 Shapley 加性解釋理論，不但能夠大幅提升預測的準確性，并且能夠在復雜的空間場景中提升礦物預測的可解釋性。點擊查看詳細報道：優于五大先進模型，浙江大學杜震洪團隊提出 GNNWLR 模型：提升成礦預測準確性2024 年 6 月，浙江大學 GIS 實驗室的研究人員在地理信息科學領域知名期刊 International Journal of Geographical Information Science 上發表了題為「A neural network model to optimize the measure of spatial proximity in geographically weighted regression approach: a case study on house price in Wuhan」的研究論文，創新性地引入神經網絡方法對觀測點間的多種空間鄰近性度量 (如歐式距離、旅行時間等) 進行非線性耦合，得到優化的空間鄰近性度量 (OSP)，從而提升模型對房價預測的準確性。通過模擬數據集和市房價實證案例的研究，論文提出的模型被證明具有更好的全局性能，能更準確地描述復雜的空間過程和地理現象。點擊查看詳細報道：精準預測房價！浙大GIS實驗室提出osp-GNNWR模型：準確描述復雜空間過程和地理現象未來，隨著 AI 技術的持續發展，地理信息產業將擁有更堅實的技術底座、更便捷的開發工具，從而推動人類步入地理空間智能時代。參考資料：1.https://arxiv.org/abs/2411.072072.https://research.google/blog/insights-into-population-dynamics-a-foundation-model-for-geospatial-inference/3.https://www.ibm.com/cn-zh/topics/geospatial-data4.https://mp.weixin.qq.com/s/eQz5N-cFTtGIkDk7IqMZxA5.https://www.xinhuanet.com/science/20240627/a6bd2906134e4c7bac189c6738f1d19d/c.html最后，分享一個技術沙龍！Meet AI Compiler 第 6 期將于 12 月 28 日在上海開幕，點擊圖片了解講師分享主題，掃描二維碼即可直接報名。往期推薦戳“閱讀原文”，免費獲取海量數據集資源！

閱讀原文