怎麼從頭開始進行營運持續計畫(BCP)規劃?

Jacky Pan / Presales Consultant

BCP的制定不能含糊,也不能缺乏組織整體性,以下這篇文章,希望可以給予大家在BCP制度建立上的一些方向。

為什麼要做BCP (Why)

BCP(Business Continuity Planning),就是人們所稱的「營運持續計畫」的縮寫,制定BCP的目的是為了保護公司營運免受災害和事故的傷害。 營運持續計畫的範圍除了我們一般看到的資訊系統,也包含了對於無法預測的天災人禍,如地震、颱風、停電等的預防。

以及,對於公司最重要的人員資產,也會包含在內(e.g., 如果公司某個重要流程負責人,因意外無法工作,是否可以找到接替的人員,而不讓公司運作停擺)。故具有一份好的BCP,可以幫助企業去因應這些風險所帶來的危機,這也是企業對於風險韌性(Risk Resilience)的一種展現。

整體BCP制定的主軸重點會放在:要找出公司在有限的資源下,必須持續進行的業務有哪些,並規劃應對作法來持續進行這些業務。

我們通常會建議剛開始施作BCP的客戶,可以試著回答以下 5 個問題,以協助公司開始制定企業營運持續計畫:

問題 1: 甚麼樣的災害可能導致公司面臨破產問題?

問題 2: 公司至少需要多久時間才能從災害中復原?

問題 3: 影響公司營運成長或倒閉的關鍵資源是什麼?

問題 4: 未來的 5 到 10 年間,哪些災害與事故可能會嚴重影響公司的營運狀況?

問題 5: 倘若災害發生,是否公司已有對應的復原措施?

如果上述的問題,您都能很清楚的回答,那很好,您可能內部已經有類似BCP的機制在運作了。

如果沒有,以下提供幾個常見的執行步驟,供您進行規劃上的參考。

要怎麼制定BCP? (How / What)

步驟 1:決定企業持續營運計畫的目的、範圍與執行團隊

首先,制定BCP前,有三大要素是主要的,公司需要透過 3 個要素來開啟並鞏固企業持續營運計畫的基礎

(1) 目的:為何需要導入企業持續營運計畫?

(2) 範圍:哪項業務適合導入企業持續營運計畫?

(3) 執行團隊與領導人:誰適合成為企業持續營運計畫的負責窗口?

公司管理高層對企業持續營運計畫的領導與支持,及執行團隊對計畫架構(目的、範圍,及執行團隊與領導人)的瞭解,也都相當重要。

表格 1:企業營運持續計畫架構表

表格 1 : 企業營運持續計畫架構表

步驟2:決定優先營運項目以及預計復原時間

延續步驟1,接著需要思考哪些可以被稱為是公司的核心產品與服務,也稱之為優先營運項目(Prioritized Activities, PAs)

例如:某個訂單系統因需要7*24承接來自各國的訂單,中斷的話可能會大幅影響公司營業額,所以這可能就是公司最需要優先恢復的優先營運項目。

將優先營運項目盤點完畢後,接著要去思考,如果優先營運項目全面中斷的話,多久後將對公司產生無法彌補的影響?

這個時期也被稱為最大容忍停機時間 /Maximum Tolerable Downtime, MTD),在此時間段後,公司運作可能無法恢復。

最後,為了不讓公司停擺,我們需要在最大容忍停機時間將優先營運項目做恢復,所以要去定義各個優先營運項目的預計恢復時間,或是常聽到的復原時間目標(Recovery Time Objective, RTO)

例如:某應用服務不能用對客戶最大容忍值是一天,RTO就會需要制定小於一天(因為超過一天,客戶可能會抓狂,而影響到公司營收) → RTO為1天

若優先營運項目是屬於資訊系統類的,除了制定復原時間目標RTO之外,也需要去定義復原點目標(Recovery Point Objective, RPO)

RPO主要是去定義資訊系統從中斷到重啟期間可忍受的最大資料損失量。

例如:電商網站的具有高頻次的交易資料,允許的資料損失量可能會是以分鐘為單位 --> RPO為5分鐘

下方表格透過圖示來幫助大家了解RTO/RPO的關係:

 230107 bcp steps 2 0

可使用以下表格做填入紀錄:

230107 bcp steps 2

表格 2: 影響程度與營運指標比較表

步驟 3: 潛在風險發生可能性與影響評估

在步驟2定義完優先營運項目,與其對應的MTD / RTO / RPO指標之後,接續要辨識與瞭解能嚴重威脅公司持續營運(或可能導致災害性狀況)的風險為何?

一般風險可能會是天災-地震、洪水和颱風; 工業災害-火災、爆炸、停電; 化學物質洩漏或蓄意行為; 及恐怖攻擊。也可能是公司人員或供應廠商操作不當…等人為因素。

藉由辨識出來的風險類別,可以用於分析、評估與排序出因應這些風險的營運持續作法。概念上就是這些狀況發生時,我要如何讓公司的關鍵活動,可以照常運作,而不會影響公司整體營運。

具體作法上需要同時檢視這些風險發生時的可能損害程度,以及需要多少時間才能恢復,將此與前述步驟的RTO/RPO做對應。

例如:與設定預計復原時間RTO相比,所要確保的資源如果需要依賴必要的公共設施(例如電、水、電話等等)才得以恢復,並可能需要花費更久的等待時間,這時可能需要重新思考預計復原時間,並在等待時間內處理其他優先恢復事項。

 以下為判斷地震時,各個重要資源所需的恢復期,以便決定是否需要採取額外措施

230110 bcp step

表格 3: 資源損害估計表

步驟4: 恢復關鍵活動的作法

根據前述步驟,我們會知道哪些風險可能會影響到哪些優先營運項目,以及對應的影響衝擊。

故針對這些影響衝擊,我們會需要針對這些影響衝擊,去建立可恢復關鍵活動的營運持續作法,

在規劃營運持續作法時,也需要思考若干重要概念,以恢復優先營運項目運作。相關策略如下:

策略 1:在受損 / 受影響地點恢復優先營運項目的運作。

策略 2:在備援點(公司內部或外部設施)恢復優先營運項目的運作

策略 3 :以替代方法(或變通方法)恢復優先營運項目的運作。

作法可能會是類似以下:

  • 人力資源相關:
    • 風險:擔心負責公司重要技術的工程師突然新冠確診,重要公司專案無法被完整執行
    • 營運持續作法:
      • 方法1:提前請該名工程師安排內部教育訓練,讓其他工程師可以學習該技術技能
      • 方法2:找外部熟悉該技術的廠商,透過外包的方式來應急短暫的人力短缺
  • 供應商管理相關:
    • 風險:公司重要原物料來源僅有配合一家廠商,廠商可能會因為需求上漲而減少供貨,或是因為景氣不佳而倒閉
    • 營運持續作法:
      • 方法1:積極向外選商,將原有一間供應商,補足成至少三家
      • 方法2:與公司內部研發團隊合作,透過研發降低最終產品的單位投入原物料,讓產品可以用更少的材料來完成;抑或是尋找替代材料
  • 政策相關:
    • 風險:政府突然宣布因為疫情,全體人員皆不能出門,只能在家辦公
    • 營運持續作法:提前導入雲端服務,包含雲端桌面主機、VPN、配置行動筆電、雲端流程系統,讓員工即使在公司外也能正常辦公
  • 資訊系統相關:
    • 風險:公司生產製造相關系統,因為駭客勒索軟體攻擊,導致生產中斷
    • 營運持續作法:
      • 方法1:事先導入異地備份解決方案,將備份存在異地辦公室或是雲端環境,遭受攻擊後可以透過還原保留原始的資料
      • 方法2:可考慮建立異地的備援站台,將備援機器放置在異地或雲端,若真的災害發生,可以當下將原始服務切換到備援站台運作,以維持營運
      • 方法3:確保公司內部資訊安全措施皆有做好,例如:電腦都有正常更新、帳號登入皆有啟用多因素驗證、電腦上皆有安裝防毒軟體或EDR解決方案…等

營運持續作法制定的過程中,也需要同時考慮營運持續作法:
1.需要哪些關鍵資源?現有資源是否充足?
2.是否需要向外找尋合作夥伴?

列出方法時,也建議可以一併列入,以便評估現況與理想的差距,以及評估做法的成本效益。

步驟5:如何將財務規劃納入營運持續計畫

延續步驟4定義完營運持續作法後,也列上所需的關鍵資源與外部夥伴資源,屆時我們需要將其轉換為成本金額費用,以便評估方法的成本效益,主要的比較關鍵為:

「優先營運項目價值」要能夠大於「投入保護成本」

例如:若我需要保護的機器設備,其價值對於公司來講只有3萬的價值,而若我選擇一個費用超過3萬的方案,就不符合價值成本效益,該作法就該被捨去。

而優先營運項目的價值可以怎麼被定義呢? 以下提供幾個方向供大家思考:

  • 帳面金額:例如當初這台設備購買金額為15萬,扣掉折舊5萬,目前價值會是10萬
  • 經濟效應價值:例如公司共有五台生產設備,每年這些生產設備可創造出100萬的營業額,扣除成本50萬,單台生產設備的淨價值就是(100萬-50萬) / 5 = 10萬
  • 無形價值:此比較抽象,舉例某優先營運項目,與公司重要訂單供應商有大幅相關,其價值可以用合作價值衡量。例如每年公司與台積電合作的價值,對於公司股價或公司形象,所能額外帶入的客戶,可帶來約200萬的價值。

定義完價值與投入的成本後,即可得出幾項以目前現況來說是最符合的作法。接著,我們要去編列對應項目的預算或是資金來源,以便實現該作法。

總結(Summary)

經過上述步驟,您應已為公司制訂了企業營運持續計畫,未來您應透過實際演練,來確認計畫的完整性。建議可安排半年或一年作為週期,來模擬風險發生時執行營運持續的作法做實際演練。

實際演練則在確保計畫有效發揮作用並達成目標,演習目的不僅在測試表現,更透過提供教育訓練來增進員工的專業能力,下面列出幾個重要的演習類型:

  • 疏散演習:測試並演練安全迅速的疏散至指定地點。
  • 安全確認演習:測試和演練員工的緊急電話撥打和安全確認。
  • 備份資料復原演習:透過備份資料來測試及練習復原程序。
  • 營運恢復演習:測試並演練受災後營運中斷的恢復。
  • 備援點開始營運演習:測試並演練備援點的營運狀況。

可使用以下表格做填入紀錄:

230107 bcp steps 3

表格4: 演習計劃與檢討表

最終,再透過PDCA的方式來定期改善上述所制定的計畫,檢討時可以自問以下問題:

  • 先前擬定與定案的營運持續計畫在執行上是否有效?
  • 是否存在待改進的工作與問題嗎?
  • 是否有思考到影響計畫的內外因素與變化呢?
  • 是否有忽略應納入營運持續計畫的任何項目?

 230107 bcp pdca 2

 

參考資料:

中小企業持續營運教戰手冊

管理人!與其追究責任,不如善用PDCA探討該如何改善!