国产电影精品一区-日韩专区一区-亚洲小说欧美激情另类,亚洲精品在线观看视频,欧美性生交大片免费看app麻豆,久久99国产精品二区不卡

中國移動IT云資源池網絡故障診斷的探索和實踐

數碼
TIME
2023-11-07 15:25
通信世界全媒體
分享

網絡數智化是指人工智能、大數據技術與通信網絡的硬件、軟件、系統、流程等深度融合,而利用AI、大數據技術助力通信網絡運維數智化,是實現自動駕駛網絡高階能力的基石。國務院國資委《關于加快推進國有企業數字化轉型工作的通知》系統闡明了國有企業數字化轉型的基礎、方向、重點和舉措,“上云用數賦智”貫穿始終。

中國移動數字化戰略進程逐步推進,對網絡的訪問質量、靈活調度、可靠性等特性提出更高的要求,以算力網絡為代表的基礎設施更是以“數字時代新能源”為目標,要求具備相應的數字化網絡支撐能力。

運維領域網絡故障診斷技術分析

通過對行業內頭部企業和專業公司的走訪、調研、交流,筆者發現行業內網絡故障診斷技術主要分為兩類:一類是主動探測技術,例如端到端探針埋點;另一類是被動探測技術,包括旁路分析、帶內報文染色。

端到端探針埋點

端到端探針埋點是通過部署在不同網絡區域、設備下的探針,進行雙向業務及網絡測試,生成端到端的SLA報告,根據異常探針位置定位某一段網絡故障。該模式存在以下不足:一是復雜數據中心網絡部署難度大,通用性低;二是缺少與網絡設備的數據交互。

帶內報文染色

網絡故障發現、定界、定位主要依賴帶內報文染色、撥測流多因子關聯分析,帶內報文染色利用診斷模型對數據進行挖掘、交叉分析,選出故障概率最高的網元及根因。但報文染色特性對設備兼容性要求高,在電信運營、政務、交通、金融等領域難落地,可推廣性不強。

本文提出基于知識圖譜AI算法,以真實業務流、撥測流中國移動IT云資源池網絡故障診斷的探索和實踐異常檢測為故障觸點,結合異常流的訪問路徑、資產、組網特征等關聯屬性,進行交叉共性分析、故障場景模型匹配,從而實現故障網元自動定界定位。

網絡故障智能診斷體系

中國移動IT云數據中心的網絡數智化運維依托云網絡基礎設施,結合運維大數據,構建數字化網絡平面,打造了一個以感知、定位、決策為核心路徑的網絡自動駕駛平臺。以真實業務流、撥測流異常檢測為故障觸點,結合異常流的訪問路徑、資產、組網特征等關聯屬性,進行交叉共性分析,自動感知資源池全局到局部的異常狀態,自動定位故障發生的網絡節點,匹配故障決策場景,實現網絡自動駕駛。網絡故障診斷流程如圖1所示。

網絡流采集

網絡流采集運用報文分析技術,實現原理為:數據中心中的每個網絡節點包含n個應用服務,應用間調用依賴網絡節點的數據包轉發。通過在網絡中的關鍵節點配置端口鏡像,如防火墻、負載均衡器、匯聚節點等,將業務流量切片,接入到鏡像交換機,分析服務器采集鏡像交換機中的鏡像報文,分析應用在每個關鍵節點上TCP/UDP層的行為,生成時延、成功率、數量等顯性指標。

網絡流分類

網絡流的統計分類可以基于生產環境運維過程中的故障輻射范圍,從云資源池、POD內、POD外,到網絡平面、VPC,也可以靈活自定義分類。

報文在網絡中的流轉分為業務路徑及網絡路徑。

業務路徑:每個業務系統由若干功能模塊組成,每個功能模塊由若干應用服務組成,而系統內所有應用服務間的調用邏輯組成了系統業務路徑。

網絡路徑:每個應用服務的一次調用,在網絡中形成一對五元組的流,將流從源地址到目標地址訪問過程中的每一次轉發匯總,形成一條網絡路徑。

異常流檢測

在分析研究網絡流實測數據特征后,本文采用ARIMA模型算法來做異常檢測。該模型相較于一元線性回歸模型,對多因素、復雜的問題解釋性高;相較于ARMA模型,可以將非平穩時間序列轉換為平穩的時間序列;相較于SARIMA模型,網絡流的數據不具有季節性變化。

構建模型需要提取每個指標的歷史數據,剔除負面歷史數據,根據每周期移動平均值、每周期差分系數、每波動周期趨勢系數,生成各類指標的預測值、上波動值、下波動值。

同時在實際生產過程中,指標預測容易因瞬時值、故障值變化導致數據失真,因此應采用“削峰去谷”、異常標注等方法,提高樣本精準度。

“削峰去谷”:將樣本自定義n個周期,每周期內剔除m%的峰、谷指標,剔除的指標根據樣本補齊算法自動替換。

異常標注:根據指標的告警、恢復周期,自動標識并剔除異常指標,根據樣本補齊算法自動替換。

故障定位

常用的網絡故障管理方法有模糊邏輯檢測、專家診斷、神經網絡系統檢測診斷和各種智能化診斷等。由于這些方法各有優劣,所以在應用中大多結合使用。

本文提出的方案以異常撥測流數據為觸點,通過網絡路徑的共性分析,得到撥測流路徑中交叉網元信息,計算網元中異常流與正常流的占比,得到故障網元的概率分布。

基于路由表項、策略引流配置,自動生成每條探測流之間經過的網元,當異常流產生時,根據交叉網元經過的異常流與正常流占比,推算共性網元的故障概率。

假設某個POD1內有4個異常流,分別命名為POD1-1、POD1-2、POD1-3、POD1-4,展開每個異常撥測流訪問路徑,包括二層路徑、三層路徑以及路徑中經過的每個網元節點,根據路徑中的交叉性、入網屬性、歸一性,以及異常占比,計算共性網元的故障概率,取故障概率最高值定義為故障共性網元。

故障場景匹配

故障網元定位出來后,需要幫助運維人員縮短故障處理時間,本文引入知識圖譜模型。基于知識圖譜模型、歷史故障的數據特征(如指標趨勢、表項變動頻率、關聯網元狀態等),構建仿真驗證的故障場景模型。

本文以網元指標類型、采集方式為維度,構建了一個與網元設備進行數據交互的原子用例。運維人員結合專家知識圖譜,自定義編排、組合原子交互用例,形成各類故障場景特征庫。

在網元與故障場景特征匹配時,通過原子交互用例與網元進行數據交互,判斷獲取的指標數據是否在故障特征用例取值區間內,滿足匹配條件后輸出故障根因與自愈決策建議。

以VRRP雙主場景為例,分析異常網元指標(高丟包率),結合網元歸屬特征、節點映射關系和VRRP雙主場景用例,得出丟包根因“Vlan xx VRRP雙主”。從場景用例可以發現,兩個VRRP主路由器競爭相同的虛擬IP地址,導致地址沖突。同時,VRRP組在主備之間頻繁切換,增加了網絡時延和丟包率。日志顯示VRRP狀態的信息,如主備狀態、切換信息、虛地址列表、版本等。

決策建議

完成故障診斷后,推送決策建議到相關方。決策內容主要分為兩類:匹配知識圖譜的故障處理建議和未匹配知識圖譜的故障定位信息,包括網元路徑、故障網元、源目地址、網元指標等。

本文圍繞網絡運行質量構建網絡故障智能診斷體系,將網絡運行中依賴的數據要素解耦為可觀測指標,結合機器學習、異常檢測、高性能探針、流處理引擎等技術,自動評估網元、網絡、鏈路、路徑、區域、租戶、子網健康狀態,結合知識圖譜場景化構建,實現故障快速根因定位。

中國移動通過在IT云試點并積累經驗,不斷完善異常檢測模式和故障場景種類,平臺能力已覆蓋IT云區域中心的所有片區中心,并逐步推廣至銀行、金融、交通、能源等行業。

THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時通知我們。

相關熱點

  新華社北京11月6日電 一項新研究顯示,人類活動正在提升地球空氣、土壤和淡水的含鹽量,在全球范圍內破壞自然“鹽循環”。如果該趨勢持續下去,可能會對人類構成“生存...
新能源
  “歇業”一段時間的冷空氣,已經在“趕進度”了。11月4日18時,中央氣象臺發布今年下半年來首個暴雪橙色預警,同時發布的還有寒潮、大風和強對流藍色預警;5日,話題“東北...
互聯網

相關推薦

1
3