經理人觀點:一個小機房出事,足以讓整間公司停擺!企業為何要有營運永續計畫 BCP?

∎ 本文經作者授權原載於《經理人月刊》,點此看更多專欄文章

2022年10月中南韓發生一場「Kakao 之亂」,起因是與其合作的數據中心 SK C&C 發生火警,造成 Kakao、Naver 等互聯網龍頭服務斷線,由於 Kakao 集團旗下的通訊軟體(Kakao Talk)、電子支付(Kakao Pay)、叫車服務等核心業務皆受到一般民眾、企業與政府的重度依賴,讓這起企業營運中斷危機,演變成全民危機。

 

停機有多痛?大型企業運作停擺,嚴重性幾乎是國安危機

服務癱瘓不只讓 Kakao 集團股價暴跌、政府監管機關介入調查、聯合執行長請辭負責,甚至有當地媒體形容像是「退回石器時代」,還有政治人物抨擊國家通訊基礎建設失能,嚴重性近乎「國安危機」,可以看出營運意外中斷對於企業的獲利與商譽衝擊茲事體大。有研究公司指出,相較於競爭對手 Naver 快速恢復上線,Kakao 顯然缺少健全且風控完善的資訊基礎建設,以及一套完善的 BCP(營運持續計畫)與備援流程。

韓國科技顧問公司服務的網路安全顧問 JR.里根(JR Reagan)接受《華盛頓郵報》(The Washington Post)訪問時分析,企業不應該將所有核心伺服器放在同一個位置(缺乏異地備援),更沒有備用發電機來彌補火災問題。他認為韓國企業不喜歡為「無法預期的事故」做準備,風險管理意識尚待加強。

去年台灣也發生類似的新聞事件,教育部在執行虛擬機器移轉時因設定錯誤而造成學生資料遺失,且缺乏完善備份、備援機制;而在十多年前,某金控也曾因總部機房火災,讓多項系統服務停機一天,將證券系統緊急切換至備援機房。天災、人禍和更多未預期風險對企業而言就像未爆彈,不做好風險管理,損失與衝擊恐怕難以估算。

∎ 延伸閱讀 | 技術專欄:怎麼從頭開始進行營運持續計畫(BCP)規劃?

 

想有效降低永續營運風險,管理者應做到 2 件事

我認為企業管理者必須做好兩件事:一、定期檢視營運衝擊分析(BIA),依內部應用系統的重要性,建立對應的應變或備援機制;二、預備好營運持續計畫(BCP)與災難復原(DR)處理流程,確保當下有即時應變的能力和資源。

 

一、定期檢視 BIA

第一個資訊安全重要概念是「營運衝擊分析」(Business Impact Analysis, BIA),是很多顧問公司的風險評判要點,也是 ISO 認證的鑑別指標之一。了解企業有哪些產品或服務在發生事故時,可能造成企業營運中斷,進而將有限的資源投入保護關鍵的活動或資產,以達到企業本身或客戶最低限度的可容忍標準。

管理者的錯誤觀念是以為 IT 系統「能動就好」,其實應該要講求整體運行的效能和風險,避免單一機器故障便造成連鎖反應,讓系統停機

舉個例子,多年前來尋求資訊顧問建議的某客戶,他們公司在全台有多家門市據點,每天有龐雜的資料量送回總部 POS 機系統,經過檢視,在他們的整體網路架構中,就藏有多處「單點失效(single point of failure, SPOF)」— 意即如果這幾處任一台故障,總部和各門市間的資訊流通就會停擺。

要降低停機的風險,關鍵行動在於從繁複的架構中找出單點失效,建立高可用性(high availability)的備援機制,千萬不要省了成本卻付出高昂代價。

恢復點目標(RPO)和恢復時間目標(RTO)

恢復點目標(RPO)和恢復時間目標(RTO)。 圖:自由系統。

 

二、預備好 BCP

第二是制定營運持續計畫(Business Continuity Planning, BCP),以確保在事故發生的當下能遵循一套處理流程,讓經營主管發布命令,使各單位有效執行災難復原(Disaster Recovery, DR)。發生災害的時候免不了人都會驚慌,有了 BCP 可以讓全體在災害的當下有個明確的指引。

BCP 計畫需要與前面提到的 BIA 連動規畫,其中最重要的是定義企業的「恢復點目標(RPO)」和「恢復時間目標(RTO)」,意即企業要先評估可以接受多少資料量遺失,以及可以接受的最長停機時間是多久,如何在有限的預算和資源下規畫出合理且適切的資訊基礎架構與 BCP 政策,考驗管理顧問團隊的經驗與能力。

資訊科技是現代企業的營運骨幹,所以資訊管理層面的安全與風險對於永續營運來說至關重要。尤其是企業在數位轉型議題上衝刺的同時,更應打好底層資訊架構基石,讓管理政策和人力能緊隨數位化步調,才能成功轉骨。
 

∎ 延伸閱讀 | 怎麼從頭開始進行營運持續計畫(BCP)規劃?

∎ 延伸閱讀 | 企業備份大揭密.下集──具體的備份做法