SAC-KG

SAC-KG – 通用知識圖譜構建框架，能構建超百萬節點的領域知識圖譜

SAC-KG是什么

SAC-KG是一個基于大型語言模型（LLMs）的通用框架，旨在自動構建特定領域的知識圖譜。該框架由生成器、驗證器和剪枝器三個核心組件組成，能夠從原始領域語料庫中自動生成一級知識圖譜，并確保生成的三元組準確無誤。SAC-KG能夠創建超過百萬節點規模的知識圖譜，實際應用中精度高達89.32%，相比于現有先進方法提升了20%以上。這一框架利用LLMs的專業能力，生成專業且準確的多層次知識圖譜。

SAC-KG

SAC-KG的主要功能

自動化知識圖譜構建：SAC-KG通過其核心組件，能夠從原始領域語料庫中自動構建特定領域的單層知識圖譜，并具備迭代構建多層級知識圖譜的能力。
提升構建精度：借助驗證器和剪枝器的協同作用，SAC-KG能夠糾正生成過程中的錯誤，并評估新生成的尾部是否需要迭代，從而確保高達89.32%的精度，超越現有方法20%以上。
領域專業化：基于LLMs作為領域專家的特性，SAC-KG生成的知識圖譜體現出高度的專業性，能夠準確生成與特定領域相關的三元組。
控制生成流程：通過引入開放知識檢索器和剪枝器，SAC-KG能夠有效管理生成過程，確保生成的三元組格式正確且符合領域需求。
大規模構建能力：SAC-KG可以在超過一百萬個節點的范圍內自動構建領域知識圖譜，充分展示了其處理大規模數據集的優勢。
無監督學習方法：SAC-KG采用無監督的方法，適用于任何擁有大量非結構化文本語料庫的領域，無需依賴標記數據。
一致性評估：通過與GPT-4及人類評估進行比較，驗證了SAC-KG生成的知識圖譜在質量和可靠性方面的高一致性。

SAC-KG的技術原理

生成器（Generator）：生成器負責從原始領域語料庫和開源知識圖譜中提取相關信息，作為輸入傳遞給LLMs，從而生成特定領域的一級知識圖譜。該模塊分為兩個子模塊：
- 領域語料庫檢索器：將領域語料庫分割為句子，按實體出現頻率排序，最后將排序后的句子連接為固定長度文本輸入到LLMs。
- 開放知識檢索器：為開源知識圖譜中的實體提供相關三元組示例；對于未包含在開源知識圖譜中的實體，將其進行分詞并重新檢索；如果仍未匹配，則隨機選擇十個三元組作為提示。
驗證器（Verifier）：驗證器的職責是檢測和過濾生成器輸出中的錯誤三元組，主要包括兩個步驟：
- 錯誤檢測：利用RuleHub中提煉的7000多條規則，對生成的三元組進行數量、格式和沖突等方面的檢查。
- 錯誤校正：依據檢測到的錯誤類型，提供相應的提示，以便LLMs重新生成正確的三元組。
剪枝器（Pruner）：剪枝器與驗證器緊密協作，通過判斷新生成的尾部是否需要進行下一層級知識圖譜的迭代，確保構建的知識圖譜具備可控性。該組件基于開源知識圖譜DBpedia進行微調的T5二分類器模型，輸入為每個正確三元組的尾實體，輸出為“growing”或“pruned”，表示該實體是否繼續生成下一層知識圖譜。