元智大學資管系第三十屆專業實習
勤業眾信聯合會計師事務所
事故管理
事故管理概述
事故管理的主要任務是當服務中斷或用戶遇到問題時,能通過此流程讓用戶快速恢復操作或即時獲得所需要的幫助與服務
核心目標
最短時間恢復服務運行
其他目標價值
降低業務影響 : 設定事故優先級確保企業單位核心業務系統能夠優先修復
減少營運成本 : 透過自動化事故偵測與回應及知識資料庫加速解決常見事故
標準化處理流程 : 記錄事故資訊幫助企業分析高風險事故,提升系統的安全性和穩定性
提供資料支持決策 : 標準化的事故處理流程能保障事故處理的品質且讓效率最大化
事故管理流程
事故識別與紀錄
-
多重管道接收事故報告
-
記錄基本資訊
-
生成唯一事故單號
分類與優先級設定
-
依事故類型分類
-
設定優先級(重大、高、中、低)
-
確保越高級事故能立即處理
調查與診斷
-
分析事故資訊,並診斷問題主因
-
對比KEDB,尋找類似事故紀錄
-
若無法解決,轉交給專家或原廠
解決與恢復
-
問題診斷與解決措施嘗試
-
實施安全性補救措施
-
結果回報與知識紀錄
關閉並審查事故
-
需經共同確認才可關閉事故
-
重大事故需執行事後檢討
-
更新知識資料庫(KEDB)
組成事故管理的關鍵要素
Self-Service Portal
-
全天候提交與追蹤事故
-
自助查詢與初步處理
-
降低客服負擔、提升回應效率
服務知識庫 (KEDB)
-
累積解決經驗
-
減少重複處理時間
-
權限管理與效率提升
Incident Management
Best Practices
-
標準化處理流程
-
支援持續改進
-
強化知識資料庫運用
事故管理角色與責任
事故經理
-
負責確保事故管理流程的有效實施
-
收到事故後通知所有相關人員
-
定期更新狀況給組織成員管理層和用戶
升
級
一級支援
-
接收到事故之後可以做初步分類與排除故障
-
無法解決就會轉交給二級支援
升
級
二級支援
-
接手一級支援無法處理的事故
-
目標是儘快恢復失敗的IT服務
-
如果無法解決就求助三級支援
三級支援
-
通常為硬體或軟體原廠
-
二級支援有提出要求才會提供服務
重大事故小組
-
通常為硬體或軟體原廠
-
二級支援有提出要求才會提供服務
問題管理
問題管理概述
問題管理是ITIL服務維運中的其中一項,主要在識別、分析和解決 IT 系統中的潛在問題,以防止同類問題重複發生。
核心目標
找出常見事故的根本原因,並做解決與預防
其他目標價值
降低服務中斷風險 : 在問題變成更嚴重之前檢測到並解決
縮短解決問題的時間 : 解決問題後團隊能更好地為之後的攻擊事件做防範
提高生產力 : 公司不用再多花時間和資源來應對可以被預防的問題
預防重複事故發生 : 通過一次性修復來防止事故重複發生
問題管理流程
識別問題
-
自動化篩選與異常偵
-
事故分類與判
-
即時通報與報告機制
問題記錄
-
問題記錄標準化
-
資料庫比對與案例查詢
-
新增已知錯誤紀錄
問題分類
-
依性質與影響評估優先順序
-
資源分配最佳化
問題分析
-
執行根本原因分析(RCA)
-
制定最佳解決方案與長期規劃
-
預防問題重複發生
解決問題
-
依分析結果實施解決方案
-
更新已知錯誤資料庫(KEDB)
-
正式關閉問題並提出報告
問題管理的種類
主動式問題管理
-
持續分析資料和識別警告訊息,在問題導致事故發生前解決
-
防止問題發生,幫助企業避免重大問題和服務中斷發生
反應式問題管理
-
專注於解決現有問題,分析根本原因
-
解決已發生的問題,減少事故影響並防止問題再次發生。
問題管理角色與責任
問題管理者
-
識別和記錄問題:負責識別和記錄所有問題,以便進行分析
-
協調解決方案:與各部門和團隊進行溝通協調,確保問題得到有效解決
-
監控和報告:監控問題解決進度並定期報告給組織同仁與管理高層
-
持續改進:根據問題管理過程中的經驗教訓,持續改進問題管理流程
問題管理團隊
-
協助識別問題:協助問題管理者識別和記錄問題
-
根本原因分析:進行根本原因分析,找出問題的根本原因
-
執行解決方案:執行問題的解決方案,確保問題能有效的被解決
-
知識共享:透過已知錯誤資料庫在團隊內部和跨部門共享問題解決的知識和經驗
-
預防未來問題:通過分析和改進,預防未來可能出現的問題
事故管理與問題管理比較
