第一節(jié)
總 則
1、保證人員和財產(chǎn)的安全為前提的原則:在由于火災或電力 問題造成的主機故障,在解決故障前,應以保證人員的生命安全和 財產(chǎn)的安全為前提,然后進行故障的解決。
2、最快時間恢復業(yè)務的原則:本著先想盡一切方法,盡快恢 復業(yè)務的原則來處理故障,如在有備用設備的情況下,主設備產(chǎn) 生了故障,應先盡快將應用切換到備用機上,使業(yè)務能夠運行, 再對故障設備進行診斷和維修。
3、故障應急人員高度負責的原則:當故障應急人員在節(jié)假日 接到故障通知時,本著高度負責的態(tài)度,應迅速接手處理障礙, 如遠程無法處理解決,應迅速趕到故障設備所在地,進行現(xiàn)場處 理,處理故障的同時應及時向領導匯報。應急人員不可互相推卸 責任,如因特殊情況,確實無法處理障礙,部門領導必須安排好 其他人員處理。 4、盡可能全面的保留故障現(xiàn)場的原則:當故障發(fā)生后,應急 人員應盡可能全面的備份出能夠反映故障現(xiàn)象的各種日志、 記錄、 受損文件等,便于業(yè)務恢復后,對故障的分析、解決,杜絕故障 的再次發(fā)生。 應急方案的目標:保證預付卡運營系統(tǒng)連續(xù)安全穩(wěn)定地運行。
第二節(jié)
應急領導小組
應急領導小組成員:
組 長:
副組長:
成 員:
電話:
第三節(jié)
電源系統(tǒng)故障 故障應急處理
定期檢查信息中心機房電源設備的運行狀況,當發(fā)生下列 突發(fā)事件時,按以下方案進行處置: 當中心機房發(fā)生市電供電突然停電或遠程報警電源異常 時。首先確認是否為正常停電及預計停電時間。檢查不間斷電 源的電池可供電時間,需在不間斷電源供電時效內關閉所有服 務器及網(wǎng)絡設備。 聯(lián)系工程部查看停電原因,盡快恢復供電,并將情況報告 相關領導.
工程部聯(lián)系電話:
第四節(jié)
空調系統(tǒng)故障應急處理
定期對空調的運行情況進行檢查,如有報警信息,應及時查 找故障原因,對于不能自行排除的問題,應及時與設備提供商進 行聯(lián)系。 當中心機房主空調因故障無法制冷,致使機房內環(huán)境溫度超 過攝氏 40 度時,打開機房房門,并關閉所有服務器及網(wǎng)絡設備。 對于無法自行處置的空調系統(tǒng)異常情況, 及時與設備提供商聯(lián)系, 并報告公司領導。
空調問題聯(lián)系人:
第五節(jié)
中心機房自動消防系統(tǒng)應急處理
當中心機房發(fā)生火警時,按以下方案進行處置: 1.上班工作時間發(fā)生火警, 聽到自動消防系統(tǒng)發(fā)出的聲光報警 后,中心機房附近辦公室人員應及時緊急撤離,避免氣體自動消防 系統(tǒng)啟動后,消防氣體對附近人員造成人身傷害。確認火警后,立 刻撥打 119 報警,并說明盡量使用氣體滅火器進行滅火,減少電子 設備的損壞。 2.發(fā)生火警后,信息中心相關人員應馬上趕赴現(xiàn)場,并向有關 領導報告事故情況。同時立即聯(lián)系聯(lián)通等相關公司,及時評估事故 損失情況,研討盡快恢復信息系統(tǒng)正常運行的最佳方案。
安保消防中控電話:
第六節(jié)
設備、網(wǎng)絡系統(tǒng)故障應急處理
設備、網(wǎng)絡應用系統(tǒng)故障應由發(fā)現(xiàn)人通知技術部,技術部門立 即檢查故障,進行初步故障定位,解決; 1.網(wǎng)絡設備、服務器、儲存設備均有備份,當設備存在硬件問 題時,可隨時把業(yè)務切換到備份主機上,保證業(yè)務正常運行; 2.應用系統(tǒng)每更新一次則做一次遠程備份,在遠程主機上分別 備份舊的應用系統(tǒng)和更新后的應用系統(tǒng),以當天的更新日期命名; 3.對磁盤柜上的數(shù)據(jù)庫文件有定時任務,每天凌晨 4:00 會把 數(shù)據(jù)庫里的數(shù)據(jù)文件倒出到遠程備份主機上, 以確保磁盤柜出現(xiàn)硬 件故障的時候,數(shù)據(jù)文件不丟失;對于網(wǎng)絡、應用系統(tǒng)出現(xiàn)硬件方 面的故障,比較嚴重的問題,對業(yè)務的正常運行造成較大的影響, 立即向有關領導報告。 4、網(wǎng)絡中有監(jiān)控服務器,運用 Cacti v10 最新的版本,監(jiān)控網(wǎng) 絡所有設備(路由器,防火墻,交換機以及服務器設備);對設備 本身的硬件檢測、外部入侵檢測、外部攻擊等多種對系統(tǒng)不利因素 以發(fā)送 mail 的形式報警; 相關人員收到報警信息, 分析收到的 log 日志以做出相應的處理。 5、每周周五對網(wǎng)絡設備進行日志及配置文件采集,對數(shù)據(jù)庫數(shù) 據(jù)文件定期下載, 和遠程備份; 在本地電腦上保存最近的配置文件, 以便在發(fā)生毀滅性的災難時,用來重組。 對簡單故障,運維人員應迅速排除故障,解決問題并記錄。如 果需要更換設備,應上報有關領導,經(jīng)批準后馬上更換故障設備, 盡快恢復網(wǎng)絡、應用系統(tǒng)運行。運維部門判斷無法及時修理時,應 立即通知相關的系統(tǒng)運行服務提供商, 在最短的時間內安排修理或 更換系統(tǒng)。 如發(fā)現(xiàn)屬外部線路的問題,應與線路服務提供商聯(lián)系,敦促對 方盡快恢復故障線路。 啟用備份線路、設備、系統(tǒng),迅速恢復相關的應用。
技術支持聯(lián)系電話:
第七節(jié)
黑客入侵的應急處理
發(fā)現(xiàn)網(wǎng)絡上有黑客攻擊行為, 任何人員都有義務向技術部門報告。 技術部立即啟動應急響應,切斷受攻擊計算機與網(wǎng)絡的連接,停止一 切操作、保護現(xiàn)場,并上報有關領導。 對于黑客攻擊, 由計算中心組織應急響應專家小組查找入侵蹤跡, 分析入侵方式和原因。由安全管理員根據(jù)對入侵事件的分析,組織相 關人員對內部網(wǎng)計算機整改, 防止黑客用同樣的手段再次入侵其他系 統(tǒng)。安全管理員檢查確定無安全隱患后,才可將受攻擊計算機重新連 接網(wǎng)絡,或啟用備份計算機來恢復應用。 安全管理員應做好記錄,保護現(xiàn)場,進行日志收集等工作。如果 能追查到攻擊者的相關信息,可以對其發(fā)出警告,必要時可以采取進 一步的行動, 乃至采取法律手段。 根據(jù)破壞程度, 經(jīng)有關領導同意后, 上報公安部門。 若系統(tǒng)已被黑客破壞,無法恢復,應將受黑客攻擊的計算機上的 重要數(shù)據(jù)備份到其他存儲介質,確保計算機內重要的數(shù)據(jù)不丟失。如果數(shù)據(jù)無法恢復,經(jīng)有關領導同意后,可與國家指定的部門聯(lián)系,由他們來協(xié)助恢復,為保證數(shù)據(jù)信息安全,需在安全管理部門作記錄。 生產(chǎn)系統(tǒng)、 第八節(jié) 生產(chǎn)系統(tǒng)、數(shù)據(jù)庫故障處理生產(chǎn)系統(tǒng)出現(xiàn)故障,技術部做出應急處理 1.因軟件設計缺陷、設計漏洞等引起的故障,通知公司研發(fā)部門 在 2 小時內查明原因,解決問題。 2.數(shù)據(jù)庫出現(xiàn)故障,運維人員應在 2 小時內查清故障原因,其他 相關部門應積極配合,解決問題。 3.如出現(xiàn)數(shù)據(jù)丟失情況,確認不能自行恢復后,啟用備份恢復數(shù) 據(jù),24 小時內恢復運營。
本方案自發(fā)布之日起施行 本方案自發(fā)布之日起施行
?