故障管理
- 編輯:admin -故障管理的主要內(nèi)容包括故障檢測、故障診斷、故障修復(fù)和故障記錄。用戶都希望網(wǎng)絡(luò)提供的服務(wù)是不間斷地、可靠的,當網(wǎng)絡(luò)中某個組件失效時,網(wǎng)絡(luò)管理者必須迅速查找故障并及時重新提供網(wǎng)絡(luò)服務(wù),網(wǎng)絡(luò)冗余備份系統(tǒng)就是基于這一要求而誕生的。
故障管理的主要內(nèi)容包括故障檢測、故障診斷、故障修復(fù)和故障記錄。用戶都希望網(wǎng)絡(luò)提供的服務(wù)是不間斷地、可靠的,當網(wǎng)絡(luò)中某個組件失效時,網(wǎng)絡(luò)管理者必須迅速查找故障并及時重新提供網(wǎng)絡(luò)服務(wù),網(wǎng)絡(luò)冗余備份系統(tǒng)就是基于這一要求而誕生的。所以網(wǎng)絡(luò)一旦發(fā)生故障,網(wǎng)絡(luò)故障的首要任務(wù)是恢復(fù)網(wǎng)絡(luò)提供的業(yè)務(wù);第二步是找出故障的原因及出現(xiàn)故障的網(wǎng)絡(luò)組件;第三步是及時、有效地修復(fù)故障;最后收集和分析故障管理的有效性(即業(yè)務(wù)中斷時間和修復(fù)成本,分析的結(jié)果用于指導(dǎo)資源的分配,以達到業(yè)務(wù)和成本的最佳平衡)和記錄故障解決方案。
故障管理的目的是檢測、記錄日志,并通知用戶,盡可能地自動修復(fù)網(wǎng)絡(luò)故障,保障網(wǎng)絡(luò)的正常運行。故障管理側(cè)重于故障發(fā)生后的診斷與處理,而性能管理側(cè)重于預(yù)防故障,防患于未然。網(wǎng)絡(luò)故障管理可以實現(xiàn)以下功能
(1)故障監(jiān)測:主動探測或被動接收網(wǎng)絡(luò)上的各種事件信息,并識別出其中與網(wǎng)絡(luò)和系統(tǒng)故障相關(guān)的內(nèi)容,對其中的關(guān)鍵部分保持跟蹤,生成網(wǎng)絡(luò)故障事件記錄。
(2)故障報警:接收故障監(jiān)測模塊傳來的報警信息,根據(jù)報警策略驅(qū)動不同的報警程序,以報警窗口/振鈴(通知一線網(wǎng)絡(luò)管理人員)或電子郵件(通知決策管理人員)發(fā)出網(wǎng)絡(luò)嚴重故障警報。
(3)故障信息管理:依靠對事件記錄的分析,定義網(wǎng)絡(luò)故障并生成故障卡片,記錄排除故障的步驟和與故障相關(guān)的值班員日志,構(gòu)造排錯行動記錄,將事件一故障一日志構(gòu)成邏輯上相互關(guān)聯(lián)的整體,以反映故障產(chǎn)生、變化、消除的整個過程的各個方面
(4)排錯支持工具:向管理人員提供一系列的實時檢測工具,對被管設(shè)備的狀況進行測試并記錄下測試結(jié)果以供技術(shù)人員分析和排錯根據(jù)已有的排錯經(jīng)驗和管理員對故障狀態(tài)的描述給出對排錯行動的前提。
(5)檢索/分析故障信息:瀏覽微信小程序并且以關(guān)鍵字檢索查詢故障管理系統(tǒng)中所有的數(shù)據(jù)庫記錄,定期收集故障記錄數(shù)據(jù),在此基礎(chǔ)上給出被管網(wǎng)絡(luò)系統(tǒng)、被管線路設(shè)備的可靠性參數(shù)。

