近日,信也科技聯合浙江大學正式公開發布大規模動態圖數據集DGraph,旨在服務圖神經網絡、圖挖掘、社交網絡、異常檢測等方向的研究人員,為之提供真實場景的大規模應用數據,幫助推動整個圖領域的發展。
1.場景真實
值得注意的是,DGraph 的源數據來源于信也科技的真實金融業務場景,并由信也科技對外開放共享給對圖領域感興趣的研究者。其構建邏輯貼近工業落地,為數據集的使用者提供了探索如何將圖模型擴展到金融領域落地應用的機會。DGraph一方面可以作為驗證相關圖模型性能的標準數據,用于解決不平衡節點分類、鏈接預測、圖分類等各種典型任務,另一方面可用于開展用戶畫像、網絡分析等研究工作。
2.結構動態
信也科技相關負責人透露:“像此次DGraph公開的如此大規模、真實的動態圖數據,據我們所知,在金融領域還是第一次。”DGraph作為一個有向無權的動態圖,包含超過370萬個節點和430萬條動態邊,支持大規模圖模型的研究與評估。其用戶關系采樣自橫跨27個月的業務場景,且網絡結構會隨著時間發生演化,為當前的動態圖模型與挖掘研究提供了結構動態的數據支持。
3.規模龐大
此外,DGraph 中包含超過200萬個“背景節點”,即并非分類或分析對象但實際存在、對業務邏輯有間接影響的節點。這些節點對于維持網絡的連通性有著重要作用,在工業界廣泛存在,可支持研究者深入探索背景節點的性質。合理處理背景節點可以在大規模數據場景下有效提升數據的存儲空間和模型的運行效率。
如下圖所示,DGraph中的節點表示信也科技服務的用戶,有向邊表示用戶關系,每個節點包含脫敏后的屬性特征,以及表示是否為金融詐騙用戶的標簽。
DGraph動態圖數據
研究團隊此前發布的論文《DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection》從圖異常檢測的角度出發,對DGraph進行了深入的數據分析與實驗,結果闡明DGraph具有巨大潛力推動圖異常檢測的發展,同時DGraph所包含的多種廣泛存在的工業特點值得更進一步探索。
信也科技相關負責人表示:“目前DGraph網站已吸引了一批來自清華大學、中科大、上海交大、同濟大學等國內外知名高校的研究者。”其中,清華大學計算機系知識工程研究室基于他們最新的圖學習框架CogDL,為DGraph數據集提供了多種圖算法的Baseline。
當前,信也科技圍繞著DGraph舉辦的第七屆信也科技杯圖算法大賽正面向全社會開放報名,國內外高等院校、科研院所、互聯網企業等均可報名參賽,角逐共計31萬人民幣獎金。期待結合賽事契機,DGraph公開數據網站的發布能夠幫助激發更多相關領域研究,并融入拓展更多其他領域的數據和實際應用,從而支持對于圖領域特性和跨領域算法的研究,攜手共建開放的數字生態。