2011年8月21日

沈重的壓力

幾分鐘前,完成了一件壓力沈重的事情。

原本就預定凌晨0:00進行公司email server storage extend作業。目前email server 從EMC storage上取得的使用空間是1200GB,此空間主要是存放全公司所有內外勤同仁的email資料。平常資料有與龍潭備援中心進行Asynchronize的資料同步。本次磁碟擴充是要增加600GB的空間,使email server達到1800GB的使用空間,以解決目前email server空間不足的問題。



由於email server的資料,目前只有透過Async同步到備援中心的一份資料,並沒有定期進行磁帶備份。一方面是1200GB資料量大,要做磁帶備份會遇到磁帶空間是否足夠的問題,一來是進行1200GB的磁帶備份所需要的時間非長久,會有資料時間點的問題。由於目前沒有Virtual tape的機制,因此並未進行磁帶備份。所以龍潭所保留的那份資料相對上來說就非常重要。

由於龍潭的資料是與台北同步,若台北的資料損毀或錯誤,備援中心的資料也一樣會被同步成錯誤的狀態,因此本次磁碟擴充,為確保龍潭的資料不受台北作業錯誤的影響,首先必須先停止台北與龍潭的資料同步。這些作業以往都是需要EMC工程師協助,所幸這幾年已經從EMC工程師那邊學到大部分所需的技術能力,因此這些作業可以利用凌晨獨自處理。

然而,這個作業的壓力,在於若作業過程中龍潭的資料在進行磁碟實體異動後無法使用,且遇到擴充過程中任何一個錯誤導致email資料損毀的情況,則.......這一切都將化為烏有,公司也將面臨嚴重的資料損毀問題,不但公司內部所有同仁重要的email受影響,高階主管勢必招受到重大的衝擊,且這樣的事件勢必會在各大科技新聞與業界傳遞,變成一個公司資安方面的一個負面例子。這樣的錯誤幾乎是沒有人可以承擔的,也就是這樣的錯誤是絕對不允許發生的。所以,這項作業看似簡單,其實過程中牽涉到EMC Enterprise Storage system、email server OS system與email service之間與storage擴充有相關的作業。

因此,作業過程中的每一個動作,包含資料同步中斷、砍掉同步群組、啟動被援資料的snapshot、預計擴充空間的創建、原資料空間將新空間綁起來進行擴充、windows OS層的實體磁碟與邏輯磁碟的擴充、email 各項 service是否能正常運行,相關的作業都不能出錯,因為很多作業都是不可逆的,一旦執行下去就沒得復原。

而會這麼謹慎的原因,在於幾年前曾經有做過相關擴充經驗,其中在OS層的作業操作過程中,曾經發生作業系統出現無法辨識已擴充過的磁碟空間,而跳出提示視窗詢問是否進行某項操作,以使得作業系統可以正常使用該空間。當時與合作廠商都不清楚是否需要按下「YES」以繼續作業,而就在一念之間,立刻先暫停繼續作業,選擇重新檢查各項作業步驟,並將windows重新開機來確定磁碟空間的狀態。當時的一個判斷與抉擇,避免了一場無法挽救的浩劫,在windows重開機後,就可以正常辨識該磁碟空間並讀取原本既有的資料。現在回想起來還是覺得非常驚險,手指已經在滑鼠左鍵準備按下確定按鍵了,一念之間的選擇竟然是正確的。

這次擴充中間所遇到的狀況與細節,都是第一次面對。所以所有過程都必須非常小心。除了在書面上做過完整的作業模擬、細節條列、環境參數與設定的再確認以外,也參考了許多技術文件。然而,實際執行過程中,仍然遇到不少未能預期的「錯誤」,每次遇到系統出現的錯誤訊息,就趕緊查明錯誤原因,進行調整以及觀念的確認。過程中原本已經打算hold住這項作業,回復原狀等待下週與EMC工程師討論後再進行。後來重新檢討整個作業流程,並延緩每個作業的時間,以確保各項操作在系統底層都已經全部運算與執行完畢,才得以突破原本遇到的許多問題。

這次作業執行全程精神緊繃,深怕一個錯誤的按鍵,造成無法彌補的悔恨。而這所有的壓力只有一個人承受,實在很孤單,真希望身邊有個人可以一同討論、一同研究每個細節。在經歷過幾個令人驚嚇的錯誤與調整後,終於完成作業,email service目前運作正常。但是整個作業只完成一半,尚未全部結束。未完成的部份是資料與備援中心同步的部份。為了確保本次作業一切正常,目前備援資料同步是中斷的,主要目的是為了保留舊有的同步資料,在接下來24小時的觀察時間,檢視email server的運作是否一切正常。在確認都沒有問題後,才可以著手將備援系統的磁碟空間打掉,重新依照台北新的磁碟空間架構,重建備援中心的磁碟空間,再啟動資料的同步機制。所以這段資料沒有同步的時間,公司其實承擔著資料遺失的風險。而目前可以允許承受多久的資料遺失風險,是接下來我要做決定的。

沒有留言:

張貼留言