2011年8月12日

可憐的資訊人

做資訊的人,有時候真的是很可憐。但是,能怪誰,還不都是自己選的。




這兩天因為家裡有些事情,休假在家。原想可以用時間陪陪小朋友,與施工師父聊一聊防水的問題,沒想到公司有一些事情,不得不立即進行聯繫與處理。

公司與備援中心網路斷線,導致原本系統上的file system出問題,系統只要處理到與 file system 有關的動作,都會卡住。還好,這一版本的HP-UX已經不像舊版的,會把整個OS咬住,只能夠透過reboot解決。同仁所幸直接卸載遠端掛載的file system。但是,使用者還是持續回報系統有問題,會頓頓的。

觀察幾分鐘後,情況未好轉,同仁開始清查有沒有其他遠端掛載的file system。並沒有,而且系統停頓不只發生在使用者登陸的AP Server,連DB Server都一樣。這情況就比較奇怪。同仁問說會不會是EMC SRDF有問題。根據以往的經驗,網路斷線後,SRDF會自己進入split狀態,理論上不會有問題才對。但是有一個情況會導致SRDF出問題,就是網路要斷不斷,短時間內時好時壞,瞬間有上上下下的情況,這時候SRDF就會被干擾,導致回應時間變長。

所以,一開始接收到網路斷線的訊息,不會去懷疑SRDF也一併出問題。試過各種辦法,還是無法解決問題。因此直接call HP工程師。依照工程師幾個步驟確認系統,應該沒有問題,但是系統仍然時好時壞,所以,開始懷疑是不是SRDF有問題,如果SRDF有問題,表示網路不是全部斷掉囉!另外在檢查HP-UX系統時,有發現Disk有異常的 loading,因此不得不懷疑真的是SRDF有狀況。

跟EMC工程師聯絡過後,工程師也說SRDF很穩,除非網路要斷不斷,不然SRDF不太可能會出問題。既然這樣,就去檢查網路部分了。從SRDF狀態下手,發現SRDF竟然是通的,資料同步全部都有傳送到龍潭去,這下肯定是網路並不是完全斷掉了。所以當務之急,馬上進行SRDF split,這個動作所花的時間也與平時不一樣,大約花了5分鐘才把SRDF中斷,而一中斷,整個系統立刻恢復正常。

終於解決掉系統不穩的問題了,雖然接下來還有一堆問題要處理,但是至少目前系統能夠正常運行了。從問題被回報到系統恢復正常,共耗時一小時。

後續還要繼續處理其他問題,也要聯繫另一個專案的DR架構問題。而小朋友已經請老婆帶去Baby Boss了,看來這次休假,是個「在營休假」,一樣都在忙公司的事情。

這就是資訊人的宿命。從五年前每天晚上standby值班,幾乎天天處理系統的問題,一直到現在,不管是假日、休假,都可能有全省的user會call in,要協助處理系統的問題。這情況在資訊界應該不陌生。只是,其他公司下班後或是假日拿值班手機的,都有不少的津貼,補償同仁夜間與假日無法休息,要及時處理系統問題,而我們同仁,就只能摸摸鼻子了。有時候很羨慕其他同仁不需要這樣standby的,畢竟薪水都一樣,但是,誰叫我自己喜歡呢!既然選了,就做吧!

沒有留言:

張貼留言