網(wǎng)絡(luò)數(shù)智化是指人工智能、大數(shù)據(jù)技術(shù)與通信網(wǎng)絡(luò)的硬件、軟件、系統(tǒng)、流程等深度融合,而利用AI、大數(shù)據(jù)技術(shù)助力通信網(wǎng)絡(luò)運(yùn)維數(shù)智化,是實(shí)現(xiàn)自動(dòng)駕駛網(wǎng)絡(luò)高階能力的基石。國(guó)務(wù)院國(guó)資委《關(guān)于加快推進(jìn)國(guó)有企業(yè)數(shù)字化轉(zhuǎn)型工作的通知》系統(tǒng)闡明了國(guó)有企業(yè)數(shù)字化轉(zhuǎn)型的基礎(chǔ)、方向、重點(diǎn)和舉措,“上云用數(shù)賦智”貫穿始終。
中國(guó)移動(dòng)(600941)數(shù)字化戰(zhàn)略進(jìn)程逐步推進(jìn),對(duì)網(wǎng)絡(luò)的訪問質(zhì)量、靈活調(diào)度、可靠性等特性提出更高的要求,以算力網(wǎng)絡(luò)為代表的基礎(chǔ)設(shè)施更是以“數(shù)字時(shí)代新能源”為目標(biāo),要求具備相應(yīng)的數(shù)字化網(wǎng)絡(luò)支撐能力。
運(yùn)維領(lǐng)域網(wǎng)絡(luò)故障診斷技術(shù)分析
通過對(duì)行業(yè)內(nèi)頭部企業(yè)和專業(yè)公司的走訪、調(diào)研、交流,筆者發(fā)現(xiàn)行業(yè)內(nèi)網(wǎng)絡(luò)故障診斷技術(shù)主要分為兩類:一類是主動(dòng)探測(cè)技術(shù),例如端到端探針埋點(diǎn);另一類是被動(dòng)探測(cè)技術(shù),包括旁路分析、帶內(nèi)報(bào)文染色。
端到端探針埋點(diǎn)
端到端探針埋點(diǎn)是通過部署在不同網(wǎng)絡(luò)區(qū)域、設(shè)備下的探針,進(jìn)行雙向業(yè)務(wù)及網(wǎng)絡(luò)測(cè)試,生成端到端的SLA報(bào)告,根據(jù)異常探針位置定位某一段網(wǎng)絡(luò)故障。該模式存在以下不足:一是復(fù)雜數(shù)據(jù)中心網(wǎng)絡(luò)部署難度大,通用性低;二是缺少與網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)交互。
帶內(nèi)報(bào)文染色
網(wǎng)絡(luò)故障發(fā)現(xiàn)、定界、定位主要依賴帶內(nèi)報(bào)文染色、撥測(cè)流多因子關(guān)聯(lián)分析,帶內(nèi)報(bào)文染色利用診斷模型對(duì)數(shù)據(jù)進(jìn)行挖掘、交叉分析,選出故障概率最高的網(wǎng)元及根因。但報(bào)文染色特性對(duì)設(shè)備兼容性要求高,在電信運(yùn)營(yíng)、政務(wù)、交通、金融等領(lǐng)域難落地,可推廣性不強(qiáng)。
本文提出基于知識(shí)圖譜AI算法,以真實(shí)業(yè)務(wù)流、撥測(cè)流中國(guó)移動(dòng)IT云資源池網(wǎng)絡(luò)故障診斷的探索和實(shí)踐異常檢測(cè)為故障觸點(diǎn),結(jié)合異常流的訪問路徑、資產(chǎn)、組網(wǎng)特征等關(guān)聯(lián)屬性,進(jìn)行交叉共性分析、故障場(chǎng)景模型匹配,從而實(shí)現(xiàn)故障網(wǎng)元自動(dòng)定界定位。
網(wǎng)絡(luò)故障智能診斷體系
中國(guó)移動(dòng)IT云數(shù)據(jù)中心的網(wǎng)絡(luò)數(shù)智化運(yùn)維依托云網(wǎng)絡(luò)基礎(chǔ)設(shè)施,結(jié)合運(yùn)維大數(shù)據(jù),構(gòu)建數(shù)字化網(wǎng)絡(luò)平面,打造了一個(gè)以感知、定位、決策為核心路徑的網(wǎng)絡(luò)自動(dòng)駕駛平臺(tái)。以真實(shí)業(yè)務(wù)流、撥測(cè)流異常檢測(cè)為故障觸點(diǎn),結(jié)合異常流的訪問路徑、資產(chǎn)、組網(wǎng)特征等關(guān)聯(lián)屬性,進(jìn)行交叉共性分析,自動(dòng)感知資源池全局到局部的異常狀態(tài),自動(dòng)定位故障發(fā)生的網(wǎng)絡(luò)節(jié)點(diǎn),匹配故障決策場(chǎng)景,實(shí)現(xiàn)網(wǎng)絡(luò)自動(dòng)駕駛。網(wǎng)絡(luò)故障診斷流程如圖1所示。
![]()
網(wǎng)絡(luò)流采集
網(wǎng)絡(luò)流采集運(yùn)用報(bào)文分析技術(shù),實(shí)現(xiàn)原理為:數(shù)據(jù)中心中的每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)包含n個(gè)應(yīng)用服務(wù),應(yīng)用間調(diào)用依賴網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)據(jù)包轉(zhuǎn)發(fā)。通過在網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)配置端口鏡像,如防火墻、負(fù)載均衡器、匯聚節(jié)點(diǎn)等,將業(yè)務(wù)流量切片,接入到鏡像交換機(jī),分析服務(wù)器采集鏡像交換機(jī)中的鏡像報(bào)文,分析應(yīng)用在每個(gè)關(guān)鍵節(jié)點(diǎn)上TCP/UDP層的行為,生成時(shí)延、成功率、數(shù)量等顯性指標(biāo)。
網(wǎng)絡(luò)流分類
網(wǎng)絡(luò)流的統(tǒng)計(jì)分類可以基于生產(chǎn)環(huán)境運(yùn)維過程中的故障輻射范圍,從云資源池、POD內(nèi)、POD外,到網(wǎng)絡(luò)平面、VPC,也可以靈活自定義分類。
報(bào)文在網(wǎng)絡(luò)中的流轉(zhuǎn)分為業(yè)務(wù)路徑及網(wǎng)絡(luò)路徑。
業(yè)務(wù)路徑:每個(gè)業(yè)務(wù)系統(tǒng)由若干功能模塊組成,每個(gè)功能模塊由若干應(yīng)用服務(wù)組成,而系統(tǒng)內(nèi)所有應(yīng)用服務(wù)間的調(diào)用邏輯組成了系統(tǒng)業(yè)務(wù)路徑。
網(wǎng)絡(luò)路徑:每個(gè)應(yīng)用服務(wù)的一次調(diào)用,在網(wǎng)絡(luò)中形成一對(duì)五元組的流,將流從源地址到目標(biāo)地址訪問過程中的每一次轉(zhuǎn)發(fā)匯總,形成一條網(wǎng)絡(luò)路徑。
異常流檢測(cè)
在分析研究網(wǎng)絡(luò)流實(shí)測(cè)數(shù)據(jù)特征后,本文采用ARIMA模型算法來做異常檢測(cè)。該模型相較于一元線性回歸模型,對(duì)多因素、復(fù)雜的問題解釋性高;相較于ARMA模型,可以將非平穩(wěn)時(shí)間序列轉(zhuǎn)換為平穩(wěn)的時(shí)間序列;相較于SARIMA模型,網(wǎng)絡(luò)流的數(shù)據(jù)不具有季節(jié)性變化。
構(gòu)建模型需要提取每個(gè)指標(biāo)的歷史數(shù)據(jù),剔除負(fù)面歷史數(shù)據(jù),根據(jù)每周期移動(dòng)平均值、每周期差分系數(shù)、每波動(dòng)周期趨勢(shì)系數(shù),生成各類指標(biāo)的預(yù)測(cè)值、上波動(dòng)值、下波動(dòng)值。
同時(shí)在實(shí)際生產(chǎn)過程中,指標(biāo)預(yù)測(cè)容易因瞬時(shí)值、故障值變化導(dǎo)致數(shù)據(jù)失真,因此應(yīng)采用“削峰去谷”、異常標(biāo)注等方法,提高樣本精準(zhǔn)度。
“削峰去谷”:將樣本自定義n個(gè)周期,每周期內(nèi)剔除m%的峰、谷指標(biāo),剔除的指標(biāo)根據(jù)樣本補(bǔ)齊算法自動(dòng)替換。
異常標(biāo)注:根據(jù)指標(biāo)的告警、恢復(fù)周期,自動(dòng)標(biāo)識(shí)并剔除異常指標(biāo),根據(jù)樣本補(bǔ)齊算法自動(dòng)替換。
故障定位
常用的網(wǎng)絡(luò)故障管理方法有模糊邏輯檢測(cè)、專家診斷、神經(jīng)網(wǎng)絡(luò)系統(tǒng)檢測(cè)診斷和各種智能化診斷等。由于這些方法各有優(yōu)劣,所以在應(yīng)用中大多結(jié)合使用。
本文提出的方案以異常撥測(cè)流數(shù)據(jù)為觸點(diǎn),通過網(wǎng)絡(luò)路徑的共性分析,得到撥測(cè)流路徑中交叉網(wǎng)元信息,計(jì)算網(wǎng)元中異常流與正常流的占比,得到故障網(wǎng)元的概率分布。
基于路由表項(xiàng)、策略引流配置,自動(dòng)生成每條探測(cè)流之間經(jīng)過的網(wǎng)元,當(dāng)異常流產(chǎn)生時(shí),根據(jù)交叉網(wǎng)元經(jīng)過的異常流與正常流占比,推算共性網(wǎng)元的故障概率。
假設(shè)某個(gè)POD1內(nèi)有4個(gè)異常流,分別命名為POD1-1、POD1-2、POD1-3、POD1-4,展開每個(gè)異常撥測(cè)流訪問路徑,包括二層路徑、三層路徑以及路徑中經(jīng)過的每個(gè)網(wǎng)元節(jié)點(diǎn),根據(jù)路徑中的交叉性、入網(wǎng)屬性、歸一性,以及異常占比,計(jì)算共性網(wǎng)元的故障概率,取故障概率最高值定義為故障共性網(wǎng)元。
故障場(chǎng)景匹配
故障網(wǎng)元定位出來后,需要幫助運(yùn)維人員縮短故障處理時(shí)間,本文引入知識(shí)圖譜模型;谥R(shí)圖譜模型、歷史故障的數(shù)據(jù)特征(如指標(biāo)趨勢(shì)、表項(xiàng)變動(dòng)頻率、關(guān)聯(lián)網(wǎng)元狀態(tài)等),構(gòu)建仿真驗(yàn)證的故障場(chǎng)景模型。
本文以網(wǎng)元指標(biāo)類型、采集方式為維度,構(gòu)建了一個(gè)與網(wǎng)元設(shè)備進(jìn)行數(shù)據(jù)交互的原子用例。運(yùn)維人員結(jié)合專家知識(shí)圖譜,自定義編排、組合原子交互用例,形成各類故障場(chǎng)景特征庫(kù)。
在網(wǎng)元與故障場(chǎng)景特征匹配時(shí),通過原子交互用例與網(wǎng)元進(jìn)行數(shù)據(jù)交互,判斷獲取的指標(biāo)數(shù)據(jù)是否在故障特征用例取值區(qū)間內(nèi),滿足匹配條件后輸出故障根因與自愈決策建議。
以VRRP雙主場(chǎng)景為例,分析異常網(wǎng)元指標(biāo)(高丟包率),結(jié)合網(wǎng)元?dú)w屬特征、節(jié)點(diǎn)映射關(guān)系和VRRP雙主場(chǎng)景用例,得出丟包根因“Vlan xx VRRP雙主”。從場(chǎng)景用例可以發(fā)現(xiàn),兩個(gè)VRRP主路由器競(jìng)爭(zhēng)相同的虛擬IP地址,導(dǎo)致地址沖突。同時(shí),VRRP組在主備之間頻繁切換,增加了網(wǎng)絡(luò)時(shí)延和丟包率。日志顯示VRRP狀態(tài)的信息,如主備狀態(tài)、切換信息、虛地址列表、版本等。
決策建議
完成故障診斷后,推送決策建議到相關(guān)方。決策內(nèi)容主要分為兩類:匹配知識(shí)圖譜的故障處理建議和未匹配知識(shí)圖譜的故障定位信息,包括網(wǎng)元路徑、故障網(wǎng)元、源目地址、網(wǎng)元指標(biāo)等。
本文圍繞網(wǎng)絡(luò)運(yùn)行質(zhì)量構(gòu)建網(wǎng)絡(luò)故障智能診斷體系,將網(wǎng)絡(luò)運(yùn)行中依賴的數(shù)據(jù)要素解耦為可觀測(cè)指標(biāo),結(jié)合機(jī)器學(xué)習(xí)、異常檢測(cè)、高性能探針、流處理引擎等技術(shù),自動(dòng)評(píng)估網(wǎng)元、網(wǎng)絡(luò)、鏈路、路徑、區(qū)域、租戶、子網(wǎng)健康狀態(tài),結(jié)合知識(shí)圖譜場(chǎng)景化構(gòu)建,實(shí)現(xiàn)故障快速根因定位。
中國(guó)移動(dòng)通過在IT云試點(diǎn)并積累經(jīng)驗(yàn),不斷完善異常檢測(cè)模式和故障場(chǎng)景種類,平臺(tái)能力已覆蓋IT云區(qū)域中心的所有片區(qū)中心,并逐步推廣至銀行、金融、交通、能源等行業(yè)。
(責(zé)任編輯:admin)(來源:通訊世界網(wǎng),原題《中國(guó)移動(dòng)IT云資源池網(wǎng)絡(luò)故障診斷的探索和實(shí)踐》) |