機房:舊時手工、絲棉織業的工作場所和生產單位的通稱;現在指電腦學習室;在IT業,機房普遍指的是電信、網通、移動、雙線、電力以及政府或者企業等,存放服務器的,為用戶以及員工提供IT服務的地方, 以下是為大家整理的關于機房應急預案5篇 , 供大家參考選擇。
機房應急預案5篇
第一篇: 機房應急預案
機房應急預案隨著我公司信息化建設的不斷深入,加強機房各類設備、系統以及信息與網絡安全等方面應對突發事件的處理能力將是信息部門目前面臨的一項重要任務。?
為應對機房可能發生的突發事件,將正在發生或已發生事故的損害程度減輕到最低,確保員工安全,特制定本應急處置預案。
1.1?機房突發事件分類?
??1.自然災害:指地震、火災等因自然因素引起的網絡與信息系統的損壞。???2.事故災難:指電力中斷、網絡損壞、軟件、硬件設備故障等引起的網絡與信息系統的損壞。?
3.人為破壞:指人為破壞網絡線路、通信設施,黑客攻擊、病毒攻擊、恐怖襲擊等引起的網絡與信息系統的損壞。??
1.2?應急處理人員組織機構?員組織機構?
?
1.3?應急機構人員崗位職責
1、應急總指揮職責?
(1)保證在任何時間,及時協調應急行動所有涉及的崗位人員;?(2)提供必須的緊急響應設備;?(3)在緊急情況下全面負責緊急行動;?
(4)在必要時向外界求救,例如:119、110、120等。?2、應急副總指揮職責?
(1)在總指揮領導下具體開展工作,當總指揮不在時履行總指揮職責;?(2)根據獲得的應急信息下達命令。?3、各相關設備負責人職責?
(1)負責盡快收集信息向應急總指揮匯報事故情況;?(2)負責現場臨時設備搶救和對事態的控制;?(3)聽從上級指揮人員的指揮。??
1.4?信息與網絡安全突發事件處理原則?
1.預防為主。立足安全防護,加強預警,重點保護基礎信息網絡和關系信息安全、穩定的重要信息系統,從預防、監控、應急處理、應急保障等環節,在管理、技術、人員等方面采取多種措施充分發揮各方面的作用,共同構筑信息與網絡安全保障體系。?
2.快速反應。突發事件發生時,按照快速反應機制,及時獲取充分而準確的信息,跟蹤研判,果斷決策,迅速處置,最大程度地減少危害和影響。?
3.分級負責。按照“誰主管,誰負責”的原則,建立和完善安全責任制及聯動工作機制。根據各負責人的職能,各司其職,加強各負責人的協調與配合,共同履行應急處置工作的管理職責。?
4.以人為本。把保障人員以及公共利益的安全作為首要任務。?
5.常備不懈。加強技術儲備,規范應急處置措施與操作流程,定期進行預案演練,確保應急預案切實有效,實現網絡與信息安全突發公共事件應急處置的科學化、程序化與規范化。
1.5?機房應急開關機具體措施?
機房各設備關閉順序如下:
1.6?服務器及存儲設備故障處理
1.6.1?排錯流程
故障發生
1.6.2應急處置具體措施?
服務器設備損壞應急處置措施?
A、關鍵應用系統所在服務器設備損壞后,應立即查明原因,使用備份服務器替換損壞設備,并立即恢復應用系統正常使用;?B、立即與設備提供商聯系,請求派維修人員前來維修。?服務器軟件損壞緊急處置措施?
A、迅速查找原因,嘗試重啟系統。使用備份進行恢復。必要時聯系開發商;?
B、當發現服務器感染有病毒后,應立即將該機從網絡上隔離出來。并啟用殺病毒軟件對該機進行殺毒處理,同時使用病毒檢測軟件對其他機器進行病毒掃描和清除工作。經技術人員確認確實無法查殺該病毒后,應作好相關記錄,并迅速聯系有關產品商研究解決;?
C、當因空調,電力等問題需要關閉所有服務器時,應遵循如下步驟:?先關閉所有應用服務器和數據庫服務器,再關閉存儲設備。啟動所有服務器時,應先打開存儲設備,再打開數據庫服務器,最后打開應用服務器。
1.6.3?服務器突發情況記錄
1.7?網絡設備故障處理?
1.7.1?網絡設備排錯流程??
網絡設備的排錯流程?
下面流程圖是網絡維護人員所應采取的排錯模型,當發生網絡故障時應按照此流程快速進行定位、排除故障。
?
1.7.2?網絡系統故障突發事件分級??
故障等級?故??障??現??象?1級??網絡完全擁塞或設備宕機?網絡或設備處理能力嚴重受影響,對最終客戶的業務運作有嚴重影響?
網絡或設備故障對重要的客戶(公司經理級或重要的部門)造成嚴重影響?
2級??網絡或設備的性能嚴重下降,對最終客戶的業務運作產生重要影響?部分區域網絡故障?
一般網絡節點發生故障?
大部分客戶的網絡通訊質量下降?
3級??網絡或設備性能受損,但最終客戶大部分業務仍可正常工作?報警出錯和操作命令反常
?4級??其它一般的故障,不影響系統的整體運行,不影響大部分客戶的使用
1.7.3?應急措施?
黑客攻擊時的緊急處置措施?
A、當發現網頁內容被篡改、Internet接入路由器有未知用戶登錄或通過其他方式發現有黑客正在進行攻擊時,應立即向信息部相關人員通報情況;?
B、在信息部人員授權下,立即備份當時的log日志并采用端口限制方式阻斷外部的入侵,觀察被攻擊的服務器等設備狀態,同時向信息部領導匯報情況;?
C、協調相關應用部門,與信息部有關技術人員一同負責被破壞系統的恢復與重建工作;?
D、協助信息部人員協同有關部門共同追查非法信息來源;?E、情況嚴重的,根據突發事件級別應及時向有關上級部門匯報。?病毒安全緊急處置措施?
A、當發現計算機感染有病毒后,應立即將該機從網絡上隔離出來;或從網絡設備狀態發現病毒爆發應采取show?mac-address?sh?arp定位或IP查詢將病毒機器所在的網絡設備端口shutdown;?
B、通知維護人員對該設備的硬盤進行數據備份;?
C、啟用殺病毒軟件對該機進行殺毒處理,同時進行病毒檢測軟件對其他機器進行病毒掃描和清除工作;?
D、如發現殺病毒軟件無法清除該病毒,應立即通知用戶并向及信息部負責人報告,經信息部技術人員確認無法查殺該病毒并同意格式化硬盤后,作好相關記錄,并格式化硬盤;?
E、機器恢復后重新開啟網絡設備的相應端口;?
F、認為情況極為嚴重,根據突發事件級別應及時向有關上級部門匯報。
?廣域網線路中斷緊急處置措施?
A、鏈路出現問題后,網絡維護人員應立即信息部負責人報告,溝通地方節點技術人員共同迅速判斷故障,查明故障原因;?
B、如屬我方管轄范圍,由雙方技術人員立即配合予以恢復。如遇無法恢復情況,立即進行備件更換或向有關廠商請求支援;?
C、如屬運營商管轄范圍,立即與運營商維護部門申報故障,請求修復;?D、根據突發事件級別應及時向有關上級部門匯報。?局域網中斷緊急處置措施?
A、局域網中斷后,網絡維護人員應立即判斷故障節點,查明故障原因,并向信息部領導匯報;?
B、如屬線路故障,更換新線路或重新安裝線路;或從最近飛線至故障設備;?C、如屬路由器、交換機等網絡設備(光模塊)故障,應立即查找是否有相關備件可以替換,或與設備提供商聯系更換設備,并調試暢通;?
D、如屬路由器、交換機配置文件破壞,應迅速按照備份配置文件重新配置,并調試暢通;如遇無法解決的技術問題,立即向有關廠商請求支援;?
E、情況嚴重的,根據突發事件級別應及時向有關上級部門匯報。
1.8?空調設備故障處理?
若空調損壞,應第一時間通知廠家上門進行維修,并及時報告信息部相關領導請示,獲得授權后按機房設備關閉順序關閉各類設備。
1.9?消防設備故障處理?
一旦機房發生火災,應遵照下列原則:首先確保人員安全;其次保護關鍵設備、數據安全;三是保護一般設備安全;?
人員疏散的程序是:機房工作人員立即按響火警警報,并通過119電話向公安消防請求支援,所有人員戴上防毒面具,所有不參與滅火的人員按照預先確定的線路,迅速從機房中撤出;?
人員滅火的程序是:首先切斷所有電源,啟動自動噴淋系統或使用滅火器,滅火值班人員戴好防毒面具,從指定位置取出泡沫滅火器進行滅火。?
1.10?電源設備故障處理?
?
熱力機房目前使用UPS系統,在緊急情況發生時,應按如下步驟進行關機:?(1)確認所有負載均已安全關機。?(2)關閉UPS負載電源。?
(3)將UPS的系統啟用開關切換到off?的狀態。?(4)將DC電池連接斷路器切換到off的位置。?(5)將所有電池拉出到紅色電池斷開線以外。?(6)斷開PDU上的斷路器。?
(7)將PDU后面總輸入斷路器切換到斷開位置。?(8)將每個上行主電路斷路器切換到斷開位置。
第二篇: 機房應急預案
####
事故處理應急預案
2017/08/06
前言 1
一、編制目的: 1
二、適用范圍: 1
三、應急事件(事故等級)分類: 1
四、故障的分類: 2
五、應急事件處置流程圖: 3
六、制冷系統故障(事故)應急預案 4
6.1冷源故障 4
6.1.1運行中的冷凍機組出現故障: 4
6.1.2備用狀態中的冷機故障: 4
6.1.3運行中的冷卻水泵故障: 5
6.1.4運行中的一次冷凍水泵故障: 6
6.1.5板換故障: 6
6.1.6冷卻塔故障: 7
6.1.7冷卻塔補水裝置故障: 9
6.2 持續制冷部分設備故障: 10
6.2.1二次泵故障 10
6.2.2蓄冷罐故障: 11
6.3水處理設備故障: 13
6.3.1全程水處理器故障: 13
6.3.2旁通水處理器故障: 13
6.3.3化學加藥裝置故障: 14
6.3.4膠球在線清洗裝置故障: 14
6.3.5定壓補水裝置故障: 14
6.4 漏水故障 15
6.4.1空調漏水 15
6.4.2單臺空調供水管路故障 15
七、配電系統應急預案 16
7.1市電斷電應急處理預案 16
7.2 開啟發電機系統應急處理預案 17
7.3 一路電源出現停電事故 17
7.4兩路電源均出現停電事故 18
八、 火災報警系統應急預案 18
8.1機房火災應急處理預案 18
8.2 消防控制器電氣控制部分故障應急預案 20
前言隨著計算機信息化建設的不斷深入,加強機房供配電系統、UPS系統、空調制冷系統設備的安全等方面應對突發事件的處理能力是信息部門目前面臨的一項重要任務。
為應對機房設備運行維護工作中可能發生的突發事件,將正在發生或已發生的事故的損害程度減輕到最低,確保人身、機房內各類設備的安全,有必要制定一套具有針對性的完善的應急方案。
1、編制目的:為確保機房設備的安全與穩定運行,建立一套具有操作性強、完善的應急管理機制,保證事故發生時能夠職責明確,迅速、有序、有效地開展應急處置工作,及時控制或消除事故,最大限度地減少人員傷亡,財產損失等后果,并在事故后能夠盡快恢復正常的運行狀態,結合山東省農信數據中心機房現場的實際情況,特制定本應急預案。
二、適用范圍:山東省農信數據中心B3—F5機房所屬所有設備。
3、事故等級的分類:
本事故應急預案分為三個等級,發生重大故障時啟用一級預案,發生嚴重故障時啟用二級預案,發生一般故障發生時啟用三級應急預案。當事故發生后運維值班員應在5分鐘內根據現場故障狀況,初步判斷故障等級,并啟用相對應的響應預案。
故障分類
對業務產生的影響
(典型案例)系統
描述
對應預案級別
重大故障
業務中斷
雙路電源供電系統同時中斷
不間斷交流供電系統的部分輸出分路或全部輸出分路斷電
一級預案
制冷系統中斷
制冷故障或制冷系統供電中斷,溫度超過上限要求
嚴重故障
業務受影響,有中斷隱患
單路電源供電中斷,系統冗余丟失
IT設備部分單路供電,系統2小時內不能恢復。
二級預案
制冷系統冗余丟失
制冷關鍵設備故障(如水泵、冷機)
監控系統中斷
監控4小時內不能恢復
一般故障
對業務產生輕微影響或業務不受影響
全程水處理器故障等
設備告警信息
三級預案
5、應急事件處置流程圖:1、重大與嚴重故障應急響應流程:2、一般故障應急響應流程:
6、組織結構、及各人員職責
6.1 應急總指揮職責:
①在緊急情況下全面負責緊急行動的指揮、協調工作;
②協調應急行動所涉及的各崗位人員,統一部署應急預案的實施工作,及緊急處理措施。
③提供、調用必須的緊急響應物資、設備、場地等;
④在必要時向外界求救,例如:119、110、120等,負責配合上級部門進行事故調查處理工作負責組織預案的演練,及時對預案進行調整、修訂和補充。
6.2應急副總指揮職責:
①在總指揮領導下具體開展工作,當總指揮不在時履行總指揮職責;
②根據獲得的應急信息下達命令。
6.3項目經理職責:
①負責盡快收集信息向應急總指揮匯報事故情況;
②組織值班班組及維修人員對現場故障設備搶修和對事態的控制;
③向公司上級匯報協調人員物資等工作;
③聽從上級指揮人員的指揮。
6、設備應急處置人員聯系方式:
單位
姓名
職務
聯系方式
座機
郵箱
七、制冷系統事故應急預案
7.1一級應急預案(重大故障)
7.1.1機房內空調主管路破裂漏水應急預案
預案啟用條件:山東省農信數據中心B2—F4機房內空調主供水管路破裂,漏水嚴重,對機房內設備運行安全產生嚴重威脅。
應急處置流程:
①省農信數據中心每個空調間均設置有備用空調系統,當機房內一臺空調發生漏水、控制器故障等無法啟動的故障時,應關閉本臺空調開啟備用空調機組以防止機房內高溫告警;
②當空調機房發生空調供回水管路漏水故障時,運維人員迅速前往現場檢查漏水部位及原因,及時查找出故障點,采取措施排除故障。如供水管破裂引起大量泄水時,運維人員應立即關閉漏水空調前端連接主管兩側的主管閥門。迅速啟用備用空調,以防止機房內高溫告警。
③運維人員立即查,迅速將故障詳細情況,造成的損害等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況,并啟用相應等級應急預案。
④如果仍不能控制大量泄水,則應使用抹布、鐵條扎緊漏水部位以減少漏水量。項目經理應組織人員使用吸水器排水、沙袋等工具阻止水勢蔓延到機房重點區域,維修人員準備備品備件以及工具進行對設備漏水處進行搶修作業。
⑤運維人員應觀察機房內環境,檢查漏水是否影響機房內重要設備,PDU、插座等,如有進水應通知客戶單位負責人對設備進行處理,防止引起電氣短路或水浸漏電。
⑥如漏水可能影響日常操作、保養及申報保險等問題,需在搶修過程中適當時間拍攝照片、做好詳細過程記錄等工作,以備日后追溯。
⑦爆裂水管修復后值班人員以正常供水壓力試壓,檢查無漏水,確認一切正常后恢復現場設備、管線運行,并加強巡視檢查工作。
7.1.2運行過程中兩套制冷機同時出現故障時應急預案
預案啟用條件:當兩套冷機同時出現故障且均無法復位消除故障時,或備用冷機在大修期間無法投入使用而運行中的冷機出現故障停機無法啟動時,啟用本預案。
應急處置流程:
①運維人員查看當前蓄冷罐冷量,估算蓄冷罐放冷可以帶載時間,迅速將故障詳細情況,蓄冷罐冷量等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況,并啟用本預案。
②項目經理通知開利冷機濟南辦事處工程師,1小時內前往現場協助維修,同時項目經理聯系本地冷庫,購買冰塊。
③當機房內溫度高于28℃時,將機房空調主備機全部開啟,風量調至最大。將購買的碎冰塊盛于水桶中,放入機房內用風機吹風進行應急降溫。將機房防火門全部敞開,走廊內窗戶全部打開,使機房內保持通風。
④如機房內部溫度繼續升高,當2#蓄冷罐出口端溫度傳感器溫度高于室外濕球溫度2℃時,將冷源手動強制調整至經濟模式(即板換制冷模式),啟用室外冷卻塔給冷凍水降溫。
⑤若是冷機設備損壞導致冷機故障無法開機,如有備件則立即更換,如無備件則立即通知采購部執行應急采購流程。
冷機廠家應急聯系方式:
開利冷機廠家報修電話
4009-000-888
開利駐濟南工程師黃工
133********
恒華服務電話
4006-967-067
7.1.3兩套冷卻塔補水裝置故障應急預案
(一)制冷模式下
預案啟用條件:冷源在制冷模式下(冷機單獨制冷工況),當兩套冷卻塔補水裝置因一臺設備故障另一臺在大修中、兩臺同時故障或斷電等原因造成無法給冷卻塔補水。冷卻塔無法補水會造成整個冷源因為冷卻側冷卻水無法降溫導致冷源無法供冷。
應急處置流程:
①當發生兩臺冷卻塔補水裝置故障,無法供水時。運維人員首先應查看蓄冷罐冷量,估算蓄冷罐可以帶載的時間,迅速將故障詳細情況,蓄冷罐冷量等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況并啟用本等級應急預案。
②如果故障發生時制冷機正在運行,運維人員應關閉制冷機,以及相應的冷卻水泵、一次泵,以防止冷卻水流量低導致冷機故障停機,同時開啟蓄冷罐進行應急放冷。項目經理組織維修人員前往故障現場進行應急搶修。如果蓄冷罐冷量放冷至30%以下,補水裝置仍未維修結束,則使用室內消火栓應急補水。
③項目經理聯系物業,通知物業消防控制室使用5F室內消火栓對冷塔進行補水。獲得準許后,運維人員迅速使用消防水帶連接消火栓,使用消防水進行補水。當冷塔接水盤達到正常水位時,開啟冷卻水泵、一次泵以及制冷機進行應急制冷。
(2)預冷模式下
操作流程:
①當發生兩臺冷卻塔補水裝置故障,無法供水時。運維人員首先應查看蓄冷罐冷量,估算蓄冷罐可以帶載的時間,迅速將故障詳細情況,蓄冷罐冷量等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況并啟用本套預案。
②如果故障發生時冷源處于預冷模式,運維人員應關閉制冷機,以及相應的冷卻水泵、一次泵,同時開啟蓄冷罐進行應急放冷。項目經理組織維修人員前往故障現場進行應急搶修。如果蓄冷罐冷量放冷至30%以下,補水裝置仍未維修結束,則使用室內消火栓應急補水。
③項目經理聯系物業,通知物業消防控制室使用5F室內消火栓對冷塔進行補水。獲得準許后,運維人員迅速使用消防水帶連接消火栓,使用消防水進行補水。當冷塔接水盤達到正常水位時,無需改變制冷模式,繼續使用預冷模式進行應急供冷。
(三)經濟模式下
操作流程:
①當發生兩臺冷卻塔補水裝置故障,無法供水時。運維人員首先應查看蓄冷罐冷量,估算蓄冷罐可以帶載的時間,迅速將故障詳細情況,蓄冷罐冷量等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況并啟用本套預案。
②如果故障發生時冷源處于經濟模式,運維人員應關閉相應的冷卻水泵、一次泵,同時開啟蓄冷罐進行應急放冷。項目經理組織維修人員前往故障現場進行應急搶修。如果蓄冷罐冷量放冷至30%以下,補水裝置仍未維修結束,則使用室內消火栓應急補水。
③項目經理聯系物業,通知物業消防控制室使用5F室內消火栓對冷塔進行補水。獲得準許后,運維人員迅速使用消防水帶連接消火栓,使用消防水進行補水。當冷塔接水盤達到正常水位時,無需改變制冷模式,繼續使用經濟模式進行應急供冷。
7.1.4兩臺冷卻塔故障應急預案
預案啟用條件:當兩套冷卻塔因一臺冷塔大修無法運行另一臺運行中冷塔出現故障或兩臺冷卻塔同時出現嚴重故障、嚴重漏水、斷電等原因造成無法工作時啟用本預案。冷卻塔無法運行會導致整個冷源無法進行供冷工作。
(一)制冷模式下
應急處置流程:
①當兩臺冷卻臺均發生故障無法運行時,運維人員首先應查看蓄冷罐冷量,估算蓄冷罐可以帶載的時間,迅速將故障詳細情況,蓄冷罐冷量等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況并啟用本套預案。
②運維人員迅速關閉故障冷源,開啟蓄冷罐進行應急放冷。項目經理組織維修人員前往故障現場進行應急搶修。當蓄冷罐冷量低于30%時,設備仍未修復,項目經理準備啟用《機房高溫應急預案》,為機房高溫做好物資等儲備。
③當室內溫度超過28℃時,啟用《機房高溫應急預案》。
(二)預冷模式下
操作流程:
①當兩臺冷卻臺均發生故障無法運行時,運維人員首先應查看蓄冷罐冷量,估算蓄冷罐可以帶載的時間,迅速將故障詳細情況,蓄冷罐冷量等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況并啟用本套預案。
②運維人員迅速關閉故障冷源,開啟蓄冷罐進行應急放冷。項目經理組織維修人員前往故障現場進行應急搶修。
③如果冷卻塔因斷電等故障導致無法運行,而非漏水時,則進行以下操作:蓄冷罐放冷過程中,當1#蓄冷罐出口處溫度傳感其溫高于室外濕球溫度2℃,開啟兩套冷卻循環水泵,使用自然風給冷卻水降溫,同時關閉預冷模式,將兩套冷源均改為經濟模式。如果機房內溫度繼續上升至28℃則啟用《機房高溫應急預案》。
④如果冷卻塔因為漏水故障導致無法運行則當蓄冷罐冷量低于30%時,準備啟用《機房高溫應急預案》,為機房高溫準備好物資等儲備。當機房溫度超過28℃時啟用《機房高溫應急預案》。
(3)經濟模式下
操作流程:
①當兩臺冷卻臺均發生故障無法運行時,運維人員首先應查看蓄冷罐冷量,估算蓄冷罐可以帶載的時間,迅速將故障詳細情況,蓄冷罐冷量等信息匯報給項目經理,項目經理向應急總指揮匯報整個故障情況并啟用本套預案。
②果冷卻塔因斷電等故障導致無法運行,而非漏水時,則進行以下操作:維修人員緊急對冷卻塔搶修,同時冷卻塔風機在不運行狀態下開啟冷卻循環水泵,使用冷卻塔自然蒸發進行冷卻板換。如果機房內溫度繼續上升至28℃則啟用《機房高溫應急預案》。
7.1.5機房高溫應急預案
預案啟用條件:數據中心機房內由于冷源故障、水冷空調故障、斷電故障等原因造成機房內溫度升高超過28℃時,短時間內不能恢復制冷,并且機房溫度持續升高,則啟用本預案。
應急處置流程:
①項目經理將機房高溫原因、設備故障情況等信息匯報給應急總指揮并啟用本預案。
②項目經理組織維修人員對造成高溫的故障進行搶修,同時運維人員將精密空調主備機全部開啟,并且風量調整至最大。
③運維人員將3F、4F新風機調整至壓縮機制冷模式,同時風機頻率調整至50Hz,給數據中心內部送強冷風。
④應急總指揮通過項目經理呈送的高溫故障排除時間、故障原因等信息,判斷是否需要購買冰塊,如需購買冰塊則通知項目經理執行冰塊緊急采購流程。
④冰塊抵達現場后,運維人員將冰塊盛于桶中置于高溫機房內部,使用風機吹冰塊進行應急制冷。
機房高溫故障解除后項目經理編寫《故障處理報告》。
8.1 二級應急預案(嚴重故障)
8.1.1一套制冷機源故障應急預案
預案啟用條件:一套冷機出現故障告警,如果運維人員現場對故障冷機復位操作,并但故障不能消除,需對冷機進行維修時,啟用本預案。一套冷機故障會導致制冷系統失掉制冷冗余。
應急處置流程:
①當運行中的制冷機出現故障時,DDC故障處理程序會向控制器發出報警命令,運維人員現場檢查冷機故障原因,如確認為冷機故障,復位后并不能消除,則運維人員通過監控平臺啟動備用冷源,同時關閉關閉故障冷源。
②值班人員將制冷機故障詳細原因、造成的影響等情況向項目經理進行匯報,維修人員現場查看故障原因,判斷故障需要維修時間,并啟用本預案。
②項目經理組織維修人員對制冷機進行維修,如需備件采購則進行緊急采購流程。如需廠家工程師技術支持則聯系開利駐濟南辦事處工程師黃工:133******** 或開利冷機售后電話:4009-000-888。
③在故障未解決前,值班人員加強巡檢頻次,由現場每2小時巡檢一次改為1小時巡檢一次,保證設備運行可靠。
④當設備修復結束后項目經理對整個故障原因以及修復過程進行記錄并編寫《故障處理報告》。
8.1.2 冷卻水泵故障應急預案
預案啟用條件:當冷卻水泵因為變頻器故障、斷電故障、電機故障、漏水故障等原因需長時間維修,暫時無法啟用故障冷卻泵所在的冷源時,啟用本預案。
應急處置流程:
①當監控平臺顯示冷卻水泵故障停機時,運維人員首先在監控平臺上檢查冷機冷凝溫度,一般情況下,冷卻水泵停止運行后冷機馬上會因排氣壓力高故障停機。如果冷機冷凝溫度數據正常平穩,現場查看水泵運行正常,則可以判斷為BA誤報。如果冷機冷凝壓力高故障停機,則可以確認為冷卻水泵故障。如果為板換制冷模式需前往現場判斷冷卻水泵是否為故障停機。
②確認為冷卻水泵故障后,運維人員需將故障情況,造成的影響等信息上報給項目經理,并啟用本預案。
③運維人員通過監控平臺關閉冷卻泵故障的制冷單元,開啟備用制冷單元,項目經理組織維修人員對設備進行應急搶修。
④在冷卻水泵故障解除前,運維人員應加強對運行中的制冷單元的巡檢頻次,由2小時巡檢一次改為1小時巡檢一次,保證設備運行可靠。
④當設備修復結束后項目經理對整個故障原因以及修復過程進行記錄并編寫《故障處理報告》。
8.1.3一次冷凍水泵故障應急預案
背景:當一次冷凍水泵因為斷電故障、電機故障、漏水故障等原因需長時間維修,暫時無法啟用故障一次冷凍水泵所在的冷源時,啟用本預案。
應急處置流程:
①在監控平臺上檢查制冷機蒸發溫度,如果蒸發溫度快速降低,則可判斷一次冷凍泵故障停機,如果制冷機蒸發溫度數據正常平穩,現場查看水泵運行正常,則可以判斷為BA誤報。如果為板換制冷模式需前往現場判斷水泵是否為故障停機。
②確認為一次冷凍水泵故障后,運維人員需將故障情況,造成的影響等信息上報給項目經理,并啟用本預案。
③確認為一次泵故障后,運維人員需通過監控平臺迅速關閉故障一次泵所在制冷單元,防止制冷機因冷凝溫度高告警停機。關閉故障冷源后,開啟備用制冷單元進行制冷。
④在冷卻水泵故障解除前,運維人員應加強對運行中的制冷單元的巡檢頻次,由2小時巡檢一次改為1小時巡檢一次,保證設備運行可靠。
⑤當設備修復結束后項目經理對整個故障原因以及修復過程進行記錄并編寫《故障處理報告》。
8.1.4板換故障應急預案
預案啟用條件:冷源處于經濟模式或預冷模式下,當板換因為嚴重漏水無法運行時啟用本預案。
應急處置流程:
A.在經濟模式下出現板換漏水情況:
①運維人員發現板換漏水嚴重需要維修后才能運行時,首先通過監控平臺將備用冷源開啟,如1#板換冷卻側漏水,則將板換冷卻水進水出水手動閥門關閉。開啟板換冷卻水將板換漏水情況造成的影響匯報給項目經理。
②將另一套冷源設置為經濟模式,開啟另一套冷源的一次泵、冷卻泵以及冷卻塔。
③關閉板換故障冷源的一次泵、冷卻水泵以及冷卻塔。
④關閉故障板換的進水閥與出水閥,對漏水處進行維修。
B.在預冷模式下出現板換漏水的情況:
①將板換漏水情況造成的影響匯報給上級主管。
②將另一套冷源設置為預冷模式,開啟另一套冷源的一次泵、冷卻泵以及冷卻塔。
③關閉板換故障冷源的一次泵、冷卻水泵以及冷卻塔。
④關閉故障板換的進水閥與出水閥,對漏水處進行維修。
8.1.5一臺冷卻塔故障應急預案
A.冷卻塔風機故障:
預案啟用條件:值班人員在巡檢過程中發現一臺冷卻塔的四臺風機中有一臺無法啟動。
應急處置流程:
①檢查風機不運行原因,判斷為何種故障,如現場能夠修復則進行修復處理并記錄在案,如不能進行修復則進行一下操作。
②如當前為冷機制冷模式,檢查制冷機冷凝溫度,確定當前制冷機運行狀態是否穩定。
③開啟備用制冷系統,當前運行何種模式,備用系統設置為何種模式運行。
④閉關當前出現冷卻塔的制冷單元。
⑤將詳細故障及操作情況匯報給上級主管,上級主管制定維修方案,及時進行搶修作業。
B.接水盤漏水故障:
預案啟用條件:值班人員在巡檢過程中發現接水盤漏水故障。
應急處置流程:
①檢查接水盤漏水原因,如果為簡單滲漏應立即使用玻璃膠進行不漏處理,如在有水狀態下無法不漏需在本套制冷單元停機時進行不漏處理。
②如為大量漏水應立即匯報給上級主管。
③開啟備用制冷單元,當前何種模式運行,備用制冷單元設為何種運行模式。
④當備用制冷單元開啟后關閉冷卻塔漏水的制冷單元。
⑤關閉冷卻塔補底部浮球閥前部手動閥以及電動閥前部手動閥。
⑥關閉冷卻塔進水閥以及出水閥,打開冷卻塔排水閥將冷卻塔內部冷卻水拍凈。
⑦使用玻璃膠對冷卻塔漏水處進行補漏處理。
⑧冷卻塔維修結束后對整個維修過程進行記錄。
C.布水槽溢流故障:
預案啟用條件:運維人員在巡檢過程中發現冷卻塔頂部布水槽出現嚴重溢流。
應急處置流程:
①檢查閥門狀態,確保閥門在正確的開度(藍色標示)。
②檢查并清理布水槽頂部布水孔是否有堵塞,冷卻塔長時間運行會導致補水孔被冷卻塔內部結垢堵塞。
③清理結束后仍出現溢流情況則取下布水孔縮小套,增加布水孔水流量。
8.1.6一套冷卻塔補水裝故障應急預案
預案啟用條件:值班人員在巡檢過程中發現一套冷卻塔補水裝置故障,無法運行。
應急處置流程:
①查看補水裝置故障原因,如果為能直接處理的小故障則直接處理。
②如無法直接處理,值班人員向上級主管匯報故障情況。
③上級主管制定維修計劃確定維修方案時間。運維人員加強對運行中的補水裝置的巡檢。
8.1.7二次泵故障應急預案
預案啟用條件:值班人員發現監控平臺顯示運行中的二次泵故障報警并停機。
應急處置流程:
①BA系統會在自動狀態下根據內部邏輯控制自動切換到另一臺備用狀態下的二次泵。水泵切換后應前往現場檢查故障原因并記錄在案,上級主管制定維修計劃。
②如果BA系統無法自動切換到備用二次泵,則需要在監控平臺上將備用二次泵設置為手動狀態,設置頻率40Hz,遠程手動開啟備用二次泵。操作結束后值班員需前往現場確認水泵是否正常運行,并查看故障原因并上報上級主管。
③如果整個制冷系統在手動狀態下運行,值班人員在巡檢時發現二次泵配電柜故障燈亮起并且停機,應將備用二次泵配電柜上旋鈕旋至手動位置,調整變頻器頻率至40Hz,按下啟動按鈕,手動本地開啟備用二次泵。查看故障二次泵故障原因,按下復位鍵能否消除故障,詳細記錄處理方法以及故障原因并匯報給上級主管。
8.1.8蓄冷罐故障應急預案
預案啟用條件:蓄冷罐焊接處開焊或者閥門處漏水嚴重,造成蓄冷罐需停止運行進行檢修時啟用本預案。
A.蓄冷罐放冷狀態下故障
應急處置流程:
①值班人員應迅速將蓄冷罐故障情況漏水流量造成的影響匯報給項目經理并啟用本預案。
②值班人員迅速開啟制冷單元,然后根據當前模式設置開啟板換或制冷機進行制冷。
③制冷機或板換制冷開啟后,通過監控平臺開啟蓄冷罐應急旁通電動閥(M03),關閉蓄冷罐進水出水電動閥(M02、M01),現場關閉蓄冷罐進水出水手動閥。
③開啟故障蓄罐頂部的排氣閥,開啟一個下排閥對故障蓄冷罐進行排水(只開啟一個下排閥,開啟過多下排閥會造成排水量大而進氣量小,造成蓄冷罐被抽憋),當排水排至開焊處一下,不在溢流時,停止排水,協調人員進行補焊處理。
④蓄冷罐維修結束后應將2#蓄冷罐出水電動閥(M02)開啟,手動出水閥(ZLJF2-DF-TES-1)打開很小的一點縫隙對蓄冷罐進行補水,1#蓄冷罐進水閥仍保持關閉狀態,蓄冷罐頂部的自動排氣閥會將內部的空氣排出。
⑤蓄冷罐補水結束后,由于及補水期間蓄冷罐未運行,內部水溫會高于系統回水水溫。開啟1/2開度1#罐進水閥(ZLJF2-DF-TES-2)與2#罐出水閥(ZLJF2-DF-TES-1),開啟1#罐進水電動閥M(01),蓄冷罐應急旁通保持打開,對蓄冷罐內部冷水進行降溫。當蓄冷罐內水溫與冷凍水主管回水溫度相差不大于2℃時全部開啟蓄冷罐進水閥與出水閥,關閉應急旁通。
⑥當整個蓄冷罐維修操作結束后,項目經理記錄整個維修過程并出具《故障處理報告》。
B.蓄冷罐沖冷狀態下故障:
應急處置流程:
①值班人員應迅速將蓄冷罐故障情況漏水流量造成的影響匯報給上級主管。
②通過監控平臺開啟蓄冷罐應急旁通電動閥(M03),關閉蓄冷罐進水出水電動閥(M02、M01),現場關閉蓄冷罐進水出水手動閥。
③開啟故障蓄罐頂部的排氣閥,開啟一個下排閥對故障蓄冷罐進行排水(只開啟一個下排閥,開啟過多下排閥會造成排水量大而進氣量小,造成蓄冷罐被抽憋),當排水排至開焊處一下,不在溢流時,停止排水,協調人員進行補焊處理。
④蓄冷罐維修結束后應將2#蓄冷罐出水電動閥(M02)開啟,手動出水閥(ZLJF2-DF-TES-1)打開很小的一點縫隙對蓄冷罐進行補水,1#蓄冷罐進水閥仍保持關閉狀態,蓄冷罐頂部的自動排氣閥會將內部的空氣排出。
⑤蓄冷罐補水結束后,由于及補水期間蓄冷罐未運行,內部水溫會高于系統回水水溫。開啟1/2開度1#罐進水閥(ZLJF2-DF-TES-2)與2#罐出水閥(ZLJF2-DF-TES-1),開啟1#罐進水電動閥M(01),蓄冷罐應急旁通保持打開,對蓄冷罐內部冷水進行降溫。當蓄冷罐內水溫與冷凍水主管回水溫度相差不大于2℃時全部開啟蓄冷罐進水閥與出水閥,關閉應急旁通。
⑥⑥當整個蓄冷罐維修操作結束后,項目經理記錄整個維修過程并出具《故障處理報告》。
9.2 三級應急預案(一般故障)
9.2.1 全程水處理器故障預案
預案啟用條件:全程水處理器出現故障,如排污閥關不嚴,取樣閥無法打開等故障時,啟用本預案。
應急處置流程:
①如全程水處理器出現反洗排污閥關閉不嚴或無法打開、設備控制器失靈無反洗等影響設備正常反洗的故障時,為預防設備內部物理過濾濾網堵塞,應打開全程水處理器旁通閥,然后關閉進出水閥。對設備維修結束后先開啟進出水閥然后在關閉旁通閥。
②如果全程水處理器取樣閥無法開啟或者電導率儀、PH儀顯示異常等不影響設備反洗的故障時,則不需切換到旁通,繼續使用并上報項目經理,并制定維修計劃。
9.2.2旁通水處理器故障預案
預案啟用條件:旁通水處理器連接處出現漏水、水泵電機無法運行、排污閥無法關閉、開啟、關閉不嚴或設備控制器出現等導致設備無法正常運行的故障時,啟用本預案。
應急處置流程:
①運維人員前往現場查旁濾裝置故障原因,如能現場解決則立即解決,如不能結局則將故障情況、造成的影響等信息匯報給項目經理。項目經理制定維修計劃。
②運維人員不能解決需關閉旁濾裝置電源,關閉旁濾裝置進水出水閥門。
③在設備臺賬中記錄設備故障發生時間,故障狀態等信息。
④制定維修計劃,確定維修時間。
⑤旁濾設備故障仍可以運行此套冷源,在運行過程中需關注冷卻水水質。
9.2.3化學加藥裝置故障預案
預案啟用條件:化學加藥裝置出現加藥泵無法加藥、控制柜電源空開跳閘、等使設備正常運行的故障時,啟用本預案。
應急處置流程:
①值班人員前方現場查看故障原因,如能現場解決則當場解決。
②如不能解決,并且設備故障導致加藥裝置無法正常加藥,如加藥泵一直加藥、加藥泵完全不加藥、取樣閥無法關閉等影響設備使用。應關閉設備電源,關閉設備進水閥與出水閥。向項目經理匯報故障詳細情況,項目經理制定維修計劃。
③加藥裝置故障時,本套冷源可以繼續運行。但再運行過程中需通過全程水處理器監控水質變化情況,如冷卻塔內出現綠藻,則應手動向冷塔內添加殺菌滅藻劑。
9.2.4膠球在線清洗裝置故障預案
預案啟用條件:膠球在線清洗裝置出現故障告警,并且無法運行時啟用本預案。
應急處置流程:
①運維人員檢查故障原因,如能當場處理則立即處理并記錄在案。
②如不能處理則向項目經理匯報故障狀態、原因,項目經理制定維修計劃。
④在膠球在線清洗裝置故障未修復這段時間,增加冷卻塔清洗頻次,由每月一次增加為每月兩次,保證冷卻水清潔無雜質,以減少水質對冷凝器的影響。
9.2.5 定壓補水裝置故障預案
預案啟用條件:壓補水裝置故障,無法正常補水時,啟用本預案。
應急處置流程:
①運維人員檢查故障原因,如能現場解決則立即解決,如不能解決應向項目經理匯報詳細故障原因。
②在補水裝置故障未解決的這段時間應加強巡檢頻次,當壓力低于0.4MPa時應通過手動補水的方式對系統補水。
③項目經理制定維修計劃。
9.2.6空調漏水故障預案
預案啟用條件:值班人員發現監控平臺顯示空調間內單臺空調漏水報警,檢查漏水量不大,且漏水未對機房內其他設備未造成影響時,啟用本預案。
應急處置流程:
①發生機房漏水時,報告漏水事件,并及時進行查看漏水原因,進行故障排除。
②若空調加濕、排水系統漏水,運維人員迅速將精密空調加濕閥門關掉,并查處漏水部位,進行更換或維護處理。
③若水系統空調出現系統管路漏水,則運維人員應立即上報,停用故障空調,迅速關閉漏水空調的冷凍水進水、出水閥門。清除機房積水,及時對滲漏水部位進行清理更換,同時啟動備用空調。
9.1.9冷源DDC控制器故障
預案啟用條件:當冷源DDC控制器因為斷電導、進水等原因造成故障停機時,DDC控制器所控制的水閥中板換旁通電動閥與板換出水電動閥會因為失去前端控制變為常開狀態。冷機冷卻水旁通電動閥、冷機冷卻水進水電動閥、快速回水電動閥、冷機冷凍供水電動閥以上四個是調節閥,當失掉前端控制信號后會自動閉合。而冷源DDC所控制的水泵如冷卻水泵、一次泵會繼續執行控制器故障前的運行狀態與頻率,不再依據DDC內部控制程序進行頻率調節。當冷源DDC出現故障時啟用本預案。
應急處置流程:
①當冷源DDC出現斷電、進水等無法運行的故障時,運維人員首先應前往B3制冷機房配電室2關閉故障冷源DDC電源,然后關閉相應系統的冷卻水泵以及一次泵。運維人員通過監控平臺啟動備用冷源系統。
②當冷源DDC故障時,制冷系統處于非低負荷模式或低負荷模式下沖冷工況。應當首先關閉B3制冷機房內電動閥配電箱內一次側電動閥電源,包括板換旁通電動閥、板換出水電動閥、冷機冷卻水旁通電動閥、冷機冷卻水進水電動閥、快速回水電動閥、冷機冷凍供水電動閥六個電動閥,以防止失去前端控制信號導后動態調節閥自動關閉。關閉一次側閥門電源后,根據冷源運行模式手動調節電動閥進行手動制冷。
③如果冷源DDC故障無法解除,項目經理應聯系BA安裝人員(王建185********)進行現場技術支援,在未解除前冷源應手動運行。
?
?
第三篇: 機房應急預案
XX銀行XX支行機房供電系統應急演練及總結
為保證機房信息系統的安全穩定運行,驗證供配電系統出現問題時核心系統的應急能力,提高供電系統及科技人員及時準確判斷與處理突發事件的水平,XX支行成功組織實施了機房供電系統專項應急演練。
加強組織領導 我支行成立了應急演練領導小組,細化分工、協作配合,確保演練過程順利實施。演練人員認真檢查梳理演練項目,對風險點進行充分評估,準備防范措施,確保演練工作順利實施。
充實演練場景 我行機房目前采用市電輸入、UPS并行的供電模式,根據這一實際情況,應急演練領導小組成員集思廣益,充實演練場景,針對單路市電供電中斷,切換發電機供電、一路UPS系統輸出中斷等多種場景進行了演練,分別驗證了市電的切換開關狀態良好,市電均能單獨承載機房所有負載;市電與發電機的切換開關狀態良好,發電機能承載機房所有負載;UPS的配電設施可以獨立承載機房全部計算機設備負載。
鍛煉演練人員 此次演練工作本著首先保證成功、同時兼顧練兵的原則,在保證每個環節不出紕漏的同時,讓參與演練人員充分了解除自身環節之外的所有步驟,確保參與演練人員能夠勝任各個環節,保證人人可以“召之即來、來則能戰、戰則必勝”。切實提升機房操作人員和技術支持人員對供電系統的故障反應和應急處理能力。
認真總結歸納 此次演練取得了圓滿成功,也存在部分需要改進或提高的地方:一是加強發電機的保養和維護。對發電機每個月至少需啟動一次,每半年更換一次燃油,以保障其工作正常,同時要另儲備一桶柴油,以備緊急之需;二是對供電線路定期進行檢修,要保證供電線路正常通暢;三是對恢復后的供電要進行先檢測后使用,使用發電機供電時,應先保證電壓、電流穩定后再進行輸出送電,保障用電設備安全。同時將需要改進的項目在《XX銀行XX支行信息系統應急預案》中進行了補充和完善。
整個演練過程中,領導組織有序,全體參演人員密切配合、分工明確、職責清晰,順利完成了各項演練內容,驗證了應急預案的有效性和可操作性,提高了機房供電系統應急處置能力,同時也鍛煉了一批電力系統應急專業勝任人員。
XX銀行XX支行
第四篇: 機房應急預案
機房應急預案
隨著XXX信息化建設的不斷深入,加強機房各類設備、系統以及信息與網絡安全等方面應對突發事件的處理能力將是信息部門目前面臨的一項重要任務。
為應對機房可能發生的突發事件,將正在發生或已發生事故的損害程度減輕到最低,確保員工安全,特制定本應急處置預案。
1.1 機房突發事件分類
1.自然災害:指地震、火災等因自然因素引起的網絡與信息系統的損壞。
2.事故災難:指電力中斷、網絡損壞、軟件、硬件設備故障等引起的網絡與信息系統的損壞。
3.人為破壞:指人為破壞網絡線路、通信設施,黑客攻擊、病毒攻擊、恐怖襲擊等引起的網絡與信息系統的損壞。
1.2 應急處理人員組織機構
1.3 應急機構人員崗位職責
1、應急總指揮職責
(1)保證在任何時間,及時協調應急行動所有涉及的崗位人員;
(2)提供必須的緊急響應設備;
(3)在緊急情況下全面負責緊急行動;
(4)在必要時向外界求救,例如:119、110、120等。
2、應急副總指揮職責
(1)在總指揮領導下具體開展工作,當總指揮不在時履行總指揮職責;
(2)根據獲得的應急信息下達命令。
3、各相關設備負責人職責
(1)負責盡快收集信息向應急總指揮匯報事故情況;
(2)負責現場臨時設備搶救和對事態的控制;
(3)聽從上級指揮人員的指揮。
1.4 信息與網絡安全突發事件處理原則
1.預防為主。立足安全防護,加強預警,重點保護基礎信息網絡和關系信息安全、穩定的重要信息系統,從預防、監控、應急處理、應急保障等環節,在管理、技術、人員等方面采取多種措施充分發揮各方面的作用,共同構筑信息與網絡安全保障體系。
2.快速反應。突發事件發生時,按照快速反應機制,及時獲取充分而準確的信息,跟蹤研判,果斷決策,迅速處置,最大程度地減少危害和影響。
3.分級負責。按照“誰主管,誰負責”的原則,建立和完善安全責任制及聯動工作機制。根據各負責人的職能,各司其職,加強各負責人的協調與配合,共同履行應急處置工作的管理職責。
4.以人為本。把保障人員以及公共利益的安全作為首要任務。
5.常備不懈。加強技術儲備,規范應急處置措施與操作流程,定期進行預案演練,確保應急預案切實有效,實現網絡與信息安全突發公共事件應急處置的科學化、程序化與規范化。
1.5 機房應急開關機具體措施
機房各設備關閉順序如下:
1.6 服務器及存儲設備故障處理
1.6.1 排錯流程
1.6.2應急處置具體措施
服務器設備損壞應急處置措施
A、關鍵應用系統所在服務器設備損壞后,應立即查明原因,使用備份服務器替換損壞設備,并立即恢復應用系統正常使用;
B、立即與設備提供商聯系,請求派維修人員前來維修。
服務器軟件損壞緊急處置措施
A、迅速查找原因,嘗試重啟系統。使用備份進行恢復。必要時聯系開發商;
B、當發現服務器感染有病毒后,應立即將該機從網絡上隔離出來。并啟用殺病毒軟件對該機進行殺毒處理,同時使用病毒檢測軟件對其他機器進行病毒掃描和清除工作。經技術人員確認確實無法查殺該病毒后,應作好相關記錄,并迅速聯系有關產品商研究解決;
C、當因空調,電力等問題需要關閉所有服務器時,應遵循如下步驟:
先關閉所有應用服務器和數據庫服務器,再關閉存儲設備。啟動所有服務器時,應先打開存儲設備,再打開數據庫服務器,最后打開應用服務器。
1.6.3 服務器突發情況記錄文檔
日期
故障發生時間
服務器名稱
IP
現象
處理情況
故障恢復時間
處理工程師
備注
1.7 網絡設備故障處理
1.7.1 網絡設備排錯流程
網絡設備的排錯流程
下面流程圖是網絡維護人員所應采取的排錯模型,當發生網絡故障時應按照此流程快速進行定位、排除故障。
1.7.2 網絡系統故障突發事件分級
故障等級
故 障 現 象
1級
網絡完全擁塞或設備宕機
網絡或設備處理能力嚴重受影響,對最終客戶的業務運作有嚴重影響
網絡或設備故障對重要的客戶(公司經理級或重要的部門)造成嚴重影響
2級
網絡或設備的性能嚴重下降,對最終客戶的業務運作產生重要影響
部分區域網絡故障
一般網絡節點發生故障
大部分客戶的網絡通訊質量下降
3級
網絡或設備性能受損,但最終客戶大部分業務仍可正常工作
報警出錯和操作命令反常
4級
其它一般的故障,不影響系統的整體運行,不影響大部分客戶的使用
1.7.3 應急措施
黑客攻擊時的緊急處置措施
A、當發現網頁內容被篡改、Internet接入路由器有未知用戶登錄或通過其他方式發現有黑客正在進行攻擊時,應立即向信息部相關人員通報情況;
B、在信息部人員授權下,立即備份當時的log日志并采用端口限制方式阻斷外部的入侵,觀察被攻擊的服務器等設備狀態,同時向信息部領導匯報情況;
C、協調相關應用部門,與信息部有關技術人員一同負責被破壞系統的恢復與重建工作;
D、協助信息部人員協同有關部門共同追查非法信息來源;
E、情況嚴重的,根據突發事件級別應及時向有關上級部門匯報。
病毒安全緊急處置措施
A、當發現計算機感染有病毒后,應立即將該機從網絡上隔離出來;或從網絡設備狀態發現病毒爆發應采取show mac-address sh arp定位或IP查詢將病毒機器所在的網絡設備端口shutdown;
B、通知維護人員對該設備的硬盤進行數據備份;
C、啟用殺病毒軟件對該機進行殺毒處理,同時進行病毒檢測軟件對其他機器進行病毒掃描和清除工作;
D、如發現殺病毒軟件無法清除該病毒,應立即通知用戶并向及信息部負責人報告,經信息部技術人員確認無法查殺該病毒并同意格式化硬盤后,作好相關記錄,并格式化硬盤;
E、機器恢復后重新開啟網絡設備的相應端口;
F、認為情況極為嚴重,根據突發事件級別應及時向有關上級部門匯報。
廣域網線路中斷緊急處置措施
A、鏈路出現問題后,網絡維護人員應立即信息部負責人報告,溝通地方節點技術人員共同迅速判斷故障,查明故障原因;
B、如屬我方管轄范圍,由雙方技術人員立即配合予以恢復。如遇無法恢復情況,立即進行備件更換或向有關廠商請求支援;
C、如屬運營商管轄范圍,立即與運營商維護部門申報故障,請求修復;
D、根據突發事件級別應及時向有關上級部門匯報。
局域網中斷緊急處置措施
A、局域網中斷后,網絡維護人員應立即判斷故障節點,查明故障原因,并向信息部領導匯報;
B、如屬線路故障,更換新線路或重新安裝線路;或從最近飛線至故障設備;
C、如屬路由器、交換機等網絡設備(光模塊)故障,應立即查找是否有相關備件可以替換,或與設備提供商聯系更換設備,并調試暢通;
D、如屬路由器、交換機配置文件破壞,應迅速按照備份配置文件重新配置,并調試暢通;如遇無法解決的技術問題,立即向有關廠商請求支援;
E、情況嚴重的,根據突發事件級別應及時向有關上級部門匯報。
1.7.4 網絡突發事件記錄文檔
日期
故障發生時間
線路
設備IP
端口
現象
處理情況
故障恢復時間
處理工程師
備注
1.8 空調設備故障處理
若空調損壞,應第一時間通知廠家上門進行維修,并及時報告信息部相關領導請示,獲得授權后按機房設備關閉順序關閉各類設備。
1.9 消防設備故障處理
一旦機房發生火災,應遵照下列原則:首先確保人員安全;其次保護關鍵設備、數據安全;三是保護一般設備安全;
人員疏散的程序是:機房工作人員立即按響火警警報,并通過119電話向公安消防請求支援,所有人員戴上防毒面具,所有不參與滅火的人員按照預先確定的線路,迅速從機房中撤出;
人員滅火的程序是:首先切斷所有電源,啟動自動噴淋系統或使用滅火器,滅火值班人員戴好防毒面具,從指定位置取出泡沫滅火器進行滅火。
1.10 電源設備故障處理
熱力機房目前使用UPS系統,在緊急情況發生時,應按如下步驟進行關機:
(1)確認所有負載均已安全關機。
(2)關閉UPS負載電源。
(3)將UPS的系統啟用開關切換到off 的狀態。
(4)將DC電池連接斷路器切換到off的位置。
(5)將所有電池拉出到紅色電池斷開線以外。
(6)斷開PDU上的斷路器。
(7)將PDU后面總輸入斷路器切換到斷開位置。
(8)將每個上行主電路斷路器切換到斷開位置。
1.11 維護小組成員
1.11.1 現場服務人員聯系方式
職務
姓名
手機
郵件
1.11.2 廠家協助服務人員聯系方式
姓名
公司
電話
職責
網絡設備代理商
服務器及小型機等設備代理商
機房弱電相關事項
機房強電相關事項
機房空調
UPS設備
發電機設備
物業工程部
消防設施
1. 若不給自己設限,則人生中就沒有限制你發揮的藩籬。2. 若不是心寬似海,哪有人生風平浪靜。在紛雜的塵世里,為自己留下一片純靜的心靈空間,不管是潮起潮落,也不管是陰晴圓缺,你都可以免去浮躁,義無反顧,勇往直前,輕松自如地走好人生路上的每一步3. 花一些時間,總會看清一些事。用一些事情,總會看清一些人。有時候覺得自己像個神經病。既糾結了自己,又打擾了別人。努力過后,才知道許多事情,堅持堅持,就過來了。4. 歲月是無情的,假如你丟給它的是一片空白,它還給你的也是一片空白。歲月是有情的,假如你奉獻給她的是一些色彩,它奉獻給你的也是一些色彩。你必須努力,當有一天驀然回首時,你的回憶里才會多一些色彩斑斕,少一些蒼白無力。只有你自己才能把歲月描畫成一幅難以忘懷的人生畫卷。
第五篇: 機房應急預案
電子政務運維中心機房應急預案
***電子政務運維服務中心機房
應急預案
一、目的 .................................................................... 3 二、基本原則 ................................................................ 3 三、適用范圍 ................................................................ 3 四、應急事件級別定義 ......................................................... 4 五、組織機構及職責 ........................................................... 5 5.1 應急領導小組組織機構..................................................... 5 5.2 應急領導小組職責 ........................................................ 5 5.3應急小組成員職責 ......................................................... 5 六、應急響應機制............................................................. 6 6.1基本處理流程 ............................................................. 6 七、應急方案 ................................................................ 7 7.1互聯網中斷應急預案(暫定為二級事件) ..................................... 7 7.2 運維中心ITM監控軟件應急預案(暫定為二級事件)........................... 7 7.2.1運維中心ITM監控軟件部署情況 ......................................... 7 7.2.2數據庫操作部分 ....................................................... 8 7.2.3 ITM操作部分 ......................................................... 8 7.2.4 ITSM操作部分 ........................................................ 9 7.3 運維中心托管應用應急預案(暫定為三級事件).............................. 11 7.4 TSM異地備份應急預案(暫定為二級事件) ................................... 11 7.5 運維中心市電中斷應急預案(暫定為二級事件).............................. 12 7.5.1 運維機房操作流程 .................................................... 12 7.5.2 柴油發電機房操作流程 ................................................ 13 7.6發電機故障應急預案(暫定為二級事件) .................................... 15
一、目的
為科學應對網絡與信息安全突發事件,提高我省電子政務運維服務中心應對突發應急事件的處理能力,確保信息系統安全運行,維護網絡和系統正常運行,降低信息安全事件對運維機房所造成的損失和影響,編制本預案。 二、基本原則
(1)居安思危,預防為主。實行突發事件統一管理、統一指揮、各級負責的原則;
(2)統一領導,分級負責,全面規劃、及時發現、快速反應、措施果斷的原則。依據《***電子政務統一平臺故障等級劃分》對突發事件進行分級管理,并按照事件級別迅速上報相關領導和責任人。
(3)制度規范,加強管理。嚴格按照《***電子政務網運行維護規范》、《***電子政務中心機房維護作業規范》事件處理流程規范操作,使突發應急的工作規范事件化、制度化。
(4)快速反應,協同應對。當突發事件發生時,各級要立即按應急預案,投入應急工作;加強各個部門配合協作。形成統一指揮、反應靈敏、功能齊全、協調有序、運轉高效的應急管理機制。
(5)主動報告原則:當突發事件發生后,要及時報告應急預案實施情況。 三、適用范圍
● 運維中心互聯網中斷應急預案 ● 運維中心運維監控軟件應急預案
● 運維中心托管系統應急預案 ● 運維中心異地備份應急預案 ● 運維中心市電中斷應急預案 ● 運維中心發電機故障后應急預案 四、應急事件級別定義
根據網絡與信息安全突發公共事件的可控性、嚴重程度和影響范圍,一般分為四級:I級(特別重大)、II級(重大)、III級(較大)、IV級(一般)。國家有關法律法規有明確規定的,按國家有關規定執行。
(1)I級(特別重大):重要網絡與信息安全系統發生全市性大規模癱瘓,事態發展超出相關主管部門的控制能力,對國家安全、社會秩序、經濟建設和公共利益造成特別嚴重損害的突發公共事件。
(2)II級(重大):重要網絡與信息安全系統造成全市性癱瘓,對國家安全、社會秩序、經濟建設和公共利益造成嚴重損害,需要跨部門、跨地區協同處置的突發公共事件。
(3)III級(較大):某一區域的重要網絡與信息安全系統癱瘓,對國家安全、社會秩序、經濟建設和公共利益造成一定損害,但不需要跨部門、跨地區協同處置的突發公共事件。
(4)IV級(一般):重要的網絡與信息安全系統受到一定程度的損壞,對公民、法人和其他組織的權益有一定影響,但不危害國家安全、社會秩序、經濟建設和公共利益的突發公共事件。
五、組織機構及職責 5.1 應急領導小組組織機構 組 長: 副組長: 成 員:
5.2 應急領導小組職責
(1)負責編制、修訂所轄范圍內突發應急事件的《應急預案》。
(2)負責協調和督促整個應急事件的處理過程。有針對性地組織專業技術人員對應急突發事件進行增援處理;必要時去現場督促,對于超出界定的突發事件,盡快提出緊急補救措施進行恢復。
(3)應急事件處理結束后,協調解決故障現場的恢復生產工作。 (4)定期或不定期地對應急小組成員進行技能培訓和應急演練。 5.3應急小組成員職責
(1)值班人員平時應做好應急事件的監控、預警工作,當應急事件發生后,迅速生產事件上報相關領導,并進行先期處置,如有必要通知二、三線工程師。 (2)二線、三線工程師在接到應急信息后,應積極配合值班人員進行先期處置,迅速趕往故障現場提供技術援助。
(3)對于在應急故障處理期間發生的新問題、新情況,應認真登記,及時上報。對于超出《應急預案》界定的應急事件,應及時匯報應急領導小組,爭取盡早提出補救措施進行恢復。
六、應急響應機制 6.1基本處理流程
(1)值班人員平時應做好應急事件的監控工作,對于突發事件應認真分析、準確判定故障發生的數據域,負責跟蹤該事件直至其結束。對于不在運維中心的故障,應在第一時間內通知負責人去現場處理,密切關注事件流程及進展情況,并做好登記工作上報領導。
(2)正常情況下,要求值班人員在10分鐘內進行事件確認。如果屬于一般事件則按照事件流程進行分派處理,否則應迅速啟動《應急預案》,并嚴格按照《應急預案》所規定的步驟快速實施應急處置,及時匯報上級領導,掌握實時處理情況。
(3)在處理過程中,如需其他部門去現場增援處理,應及時向上級領導部門匯報,協調溝通,盡快聯系技術工程師或廠家技術支持趕赴現場援助處理。
七、應急方案
7.1互聯網中斷應急預案(暫定為二級事件)
(1)密切關注,積極與其他機房值班人員取得聯系,準確判斷故障位置、數據域。如故障區域屬于運維中心范圍之內,應立即啟動應急預案上報相關領導,同時通知其他機房值班人員加緊監控力度。
(2)檢查網絡硬件設備運行狀態,如發現指示燈有異常告警,及時與對端進行確認。必要時聯系市廣電工程師檢查物理鏈路,如情況屬實,盡快督促廣電工程師去現場進行搶修,并上報相關領導。
(3)如發現故障屬硬件原因所致,盡快啟用備份設備或備用端口,爭取將損失減少至最低水平,及時匯報領導,協調更換或維修。
(4)登錄核心交換機檢查配置信息及其運行情況,如果發現配置信息有被篡改的情況,盡快啟用備份數據進行恢復。
(5)堅持由簡到繁,由大到小的原則逐步縮小故障范圍,最后定位故障點。如果發現網絡內部存在嚴重病毒感染或網絡攻擊,果斷斷網,盡快通知相關責任人查殺病毒,并告知技術支持尋求補救措施。
7.2 運維中心ITM監控軟件應急預案(暫定為二級事件) 7.2.1運維中心ITM監控軟件部署情況
7.2.2數據庫操作部分
應用系統要運行,首先應保證數據庫能正常工作。如有故障,可以利用vnc遠程登錄,然后在桌面打開一個命令行終端,輸入如下命令: cd /opt/oracle/product/OraHome/bin //進入工作目錄 ps –ef|grep ora //查看服務進程
如果輸出結果與下圖類似,則說明oracle數據庫正在運行。否則說明數據庫有異常,需要手動重啟。
kill -9 **** //殺死相關進程 su – oracle //切換用戶
dbstart $ORACLE_HOME //啟動數據庫服務進程 7.2.3 ITM操作部分
在確保數據庫正常運行后,才能依次在每臺監控服務器上啟動ITM服務進程,具體命令如下:
cd /var/ITManager/bin //進入工作目錄 ps –ef|grep ITM //查看服務進程
如果有ITMserver進程,則說明ITM服務正在運行。否則,應手動重啟。
nohup ./ITMnurse & //啟動ITM服務進程
注意:在重新啟動ITMnurse服務前,一定要將以前的相關進程全部殺死,否則它將去自動調用ITM服務,導致啟動失敗。整個啟動過程較慢,大約需要8至10分鐘,可以在監控區網管機上通過vnc遠程進行操作。
目前,各ITM應用的syslo信息也存放于本地物理磁盤,所以當應用啟動后,還應檢查syslog運行情況,具體命令如下:
ps –ef|grep syslog //查看服務syslog進程 cd /var/ITManager/syslogcollector //進入工作目錄 nohup ./syslogrun.sh & //啟動syslog服務進程 ps –ef|grep syslog //核查服務syslog進程 kill -9 XXXX //殺死相關進程 dbshut //停掉數據庫進程 Poweroff //關閉服務器 7.2.4 ITSM操作部分
ITSM數據庫和應用均部署在*.15.36.24服務器上,可以通過vnc或遠程桌面進行登錄,進入到服務管理界面,查看ITSMServer、ITSMProxy、itsmdb、ITSMSms及Apache Tomcat cas進程是否正常啟動,如異常則應手動進行重啟,并作記錄。具體情況如下圖所示:
7.3 運維中心托管應用應急預案(暫定為三級事件)
(1)檢查網絡連接、配置是否正常;
(2)利用vnc或遠程桌面登錄服務器,檢查本地服務進程是否正常,如有問題,手動重啟相應服務,并做好記錄;
(3)檢查服務器是否感染病毒,查殺病毒。如發現系統正在遭受網絡攻擊或被黑客控制,果斷斷網,并上報托管部門相應領導,以便盡早處理;
(4)積極聯系托管單位來機房檢查、確認,利用備份數據進行恢復。
7.4 tsm異地備份應急預案(暫定為二級事件)
(1)一般的tsm故障均可以通過系統重啟進行恢復。但重啟之前必須先檢查最近tsm備份情況,系統重新之后應確保帶庫已正確被掛載,以便能正常備份。
(2)TSM存儲備份關機順序,必須嚴格按照主機—虛擬帶庫—擴展柜進行,可通過KVM登錄,按“ctrl鍵”進行選擇。但需要注意:每臺設備應間隔3-5分鐘再關機。
(3)TSM存儲備份開機順序,必須嚴格按照擴展柜—虛擬帶庫—主機進行,每臺設備應相隔3-分鐘再開機。等主機順利啟動后,需要立即檢查帶庫掛載情況,如有異常,應立即重啟。
(4)如發現系統正在遭受網絡攻擊或被黑客控制,應果斷斷網,查殺病毒并盡快上報領導,以便查明原因。
(5)系統恢復后,應及時檢查最近備份數據,并及時通知相關負責人來機房驗證備份數據的完整性及其可恢復性。
7.5 運維中心市電中斷應急預案(暫定為二級事件)
運維機房市電中斷后,應立即電話聯系大樓物業(物業值班室電話:88312910轉25,82300966),詢問停電原因并估計恢復時間,并上報主管部門領導。如若停電時間超過20分鐘必須做發電前準備工作,并啟動應急預案,具體操作分兩部分進行。
7.5.1 運維機房操作流程
7.5.1.1發電前準備工作
(1)關閉市電配電柜內熱水器、主任辦公室、運維一、運維二、運維三、機房空調、監控區空調,電視墻等大功耗用電設備開關;
(2)確認市電配電柜內鑰匙開關是否已置于自動檔,如不符,將鑰匙開關置于自動擋;
(3)電話聯系發電人員,告知機房內發電準備工作已經就緒,等待發電機送電;
7.5.1.2發電機正常供電后
(1)電話聯系發電機房人員,確認機房準備一切就緒,可以送電;
(2)等待發電機供電穩定后,將市電配電柜內鑰匙開關置于手動檔;
(3)檢查配電柜面板電壓表三相電壓是否均在400伏特左右;
(4)檢查配電柜面板三個電流表指示針是否均在40安培以下;
(5)檢查UPS控制面板是否能正常供電(此時顯示“旁路供電” ),確認輸入電源頻率在50赫茲左右;
注意:在發電機供電時,操作人員不得遠離機房,并隨時注意市電配電柜及UPS主機表值的變化和告警!
7.5.1.3 市電恢復后
(1)市電恢復大約5-10分鐘后,與物業電話聯系確認市電供電已經穩定;
(2)電話聯系發電人員,告知發電機可以停止供電;
(3)當發電機停止供電后,將市電配電柜內鑰匙開關置于自動檔(此時市電已開始供電);
(4)檢查配電柜面板電壓表三相電壓是否均在400伏特左右;
(5)檢查配電柜面板三個電流表指示針是否均在40安培以下;
(6)檢查UPS控制面板是否能正常供電,確認輸入電源頻率在50赫茲左右;
(7)確認設備工作正常后,將市電配電柜內鑰匙開關置于手動檔;
(8)檢查各辦公室設備情況并通知準備供電,保障各位辦公室人員人身安全及設備安全;
(9)依次復位市電配電柜內熱水器、主任辦公室、運維一、運維二、運維三、機房空調、監控區空調、電視墻等電器開關。
注意事項:每個開關復位時應間隔5-10秒,以免引起浪涌現象損壞配電及用電設備。
7.5.2 柴油發電機房操作流程
7.5.2.1啟動柴油發電機前的檢查及準備工作
(1)檢查機油、冷卻液液面,是否在規定的范圍內;
(2)檢查柴油供油管是否已經放入油箱并盡可能插入油箱底部;
(3)檢查供油系統是否正常;
(4)檢查電瓶電纜連接是否牢靠;
(5)檢查發電機配電箱的送電開關是否置于“分”狀態;
7.5.2.2 啟動柴油發電機
(1)插入啟動鑰匙將啟動開關向右旋轉置于打開位置;
(2)按下啟動按鈕,同時小幅度擺動(左右擺動)油門手柄,待發動機啟動后立即松開啟動按鈕(注意:每次啟動時間不要超過5秒,啟動間隔不要少于10秒);
(3)將油門手柄調置較小的位置(發動機勻速轉動即可),保持發動機勻速運轉5-10分鐘,待發動機轉速正常后才可調整油門手柄;
(4)將油門手柄慢慢向右調整,并注意頻率表(指針最高指向50赫茲);
(5)隨著油門手柄的逐漸開啟,頻率表指針指向50赫茲時,穩住油門手柄并將油門手柄固定手輪向右旋轉固定牢靠;
7.5.2.3 柴油發電機向運維機房供電
(1)聯系機房值班當班人員,確認市電配電柜鑰匙開關已經置于自動狀態;
(2)詢問機房工作人員是否可以拉閘送電;
(3)待機房工作人員確認可以送電時,將發電機控制箱的送電開關向上調至“合”狀態,此時已將電送至機房;
(4)注意發電機配電箱的電流表、頻率表的變化,隨時調整油門手柄,使頻率表指針固定在50赫茲(剛剛加入負載時,頻率值會變小,應及時調整油門手柄提高頻率至50赫茲);
(5)隨時注意燃料液面,及時補充發電機所需燃料(如果在更換燃料時,發電機熄火,應立即通知機房工作人員)。
7.5.2.4 正常發電期間
注意:在發電機運轉時,操作人員不得遠離發電機,并隨時注意發電機表值的變化!
(1)發電機控制箱部分:
a、注意頻率表數值的變化(應控制在50赫茲);
b、注意電流表數值的變化(每塊電流表不得超過40安培);
c、注意電壓表數值的變化(每項電壓不得高于430伏特);
d、用手觸摸發電機機殼檢查表面溫度是否正常;
(2)柴油機控制箱部分:
a、注意水溫表的變化(表針應指在綠格部分);
b、注意油溫表的變化(表針應指在綠格部分);
c、注意油壓表的變化(表針應指在綠格部分);
d、注意電流表的變化(表針應指向“+”方向);
7.5.2.5 柴油發電機停機
(1)聯系機房工作人員,確認發電機斷供準備工作是否就緒;
(2)待機房工作人員確認可以斷電后,將發電機控制箱的送電開關向下調至“分”狀態,并立即將油門手柄向左調整到較小狀態;
(3)通知機房工作人員已將發電機供電開關斷開;
(4)保持發動機低轉速運轉3-5分鐘后,將熄火開關拉置熄火位置(向右拉),直至發動機完全停止轉動;
(5)將啟動開關旋轉至中間檔位,拔出鑰匙即完成熄火;
(6)將柴油輸油管從油箱中取出,并固定在較高位置(防止油管中的柴油外漏);
(7)蓋好油箱,并填寫發電機操作、運轉登記表。
7.6發電機故障應急預案(暫定為二級事件)
特殊情況下,市電中斷后,啟動發電機發電時,發電機有故障,不能正常發電,值班人員應及時聯系確認,盡快上報領導,尋找其他解決方案。必要時關閉運維中心機房內非關鍵業務,以保證呼叫中心及ITM系統能正常使用。
(1)監控區的網管機內、外網各留一臺,其余的均可以關閉。
(2)按照主機—虛擬帶庫—擴展柜順序,關閉TSM備份服務器,H3C存儲參照TSM執行。
(3)在監控區通過網管機或VNC關閉省政府動力環境監控、省政府視頻監控、省委動力環境監控、政協視頻監控以及運維中心視頻監控等。
(4)4列5柜內所有服務器均屬測試組維護,負責人為相紅利,除11/235需要
登錄系統正常關機外,其他的均可以直接關機;
(a)192.168.7.235(用戶名/密碼:administrator/zhaoyikui); (b)192.168.7.11 (用戶名/密碼:administrator/testsvn);
(5)4列
4柜的CVS服務器、陜投門戶測試服務器均可直接關閉;公司郵件、門戶及病毒服務器,關閉之前應與李宗斌進行確認。
(6)小機的關機步驟:
a、HMC的操作
運維機房兩臺IBMP55A無顯示輸出設備,須受控于HMC進行管理,HMC加電后自動引導系統至登陸界面,使用HMC默認管理口令進行登陸,管理用戶:hscroot 口令:abc123,登陸后點擊左側控制列表中的 “服務器管理(M)”項既可查看到該HMC所管理的P系列小型機,在運維機房環境中,該HMC管理了兩臺P55A型小型機,若某臺小型機連接狀態提示No Connect,則檢查HMC服務器網口到交換機,以及P55A后端HMC口到交換機的網絡鏈路是否正常。
注:運維機房HMC為英文環境,請如圖對照進行操作
b、IBM小機停機步驟
運維機房的兩臺P55A均進行了分區,在停止P55A時,請先關閉各個分區,途中的all分區為全分區,為管理所用,不用進行操作,操作僅對各P55A的lpar1以及lpar2進行,選中分區后在右鍵功能菜單中選擇關閉分區即可,待分區狀態為未激活時,可表明分區已被關閉,依次對4個分區進行同樣操作。
當所有分區關閉完成后,對這兩臺P55A進行Poweroff操作,如下圖所示:
再彈出的對話框中選擇正常關閉
待受管機器狀態為Poweroff時候,說明該主機已斷電,機器正常關閉。
(7)關閉UPS配電柜內暫時不使用的空開開關。
(8)當UPS電磁容量降至50%時,若市電仍無準確的恢復時間,此時就須將ITM系統關閉,以保證呼叫中心的電話暢通和ITSM正常運行。
(9)當UPS電磁容量降至20%時,若市電仍無準確的恢復時間,此時應暫時關閉呼叫中心主機,關閉機房內所以空開開關。同時將客服電話與所有外線電話線直接相連,密切留意呼叫電話及市電供應情況。




