專家博客 解決存儲故障首先要做到什么? |
發布時間: 2012/7/30 23:33:30 |
在一些知名的微博上,#fail是一個標簽,當你的生活或者工作出現問題時你可以記錄下這串字符。那么,你該如何在存儲基礎設施上避免記錄下#fail呢?最重要的事情是要未雨綢繆。
你所從事的IT業是一個關注何時出現問題遠勝于關心哪些地方出現了問題的行業。你首先需要為基礎設施內存在的問題做好準備。不管你是嘗試自己解決問題,還是邀請專家來解決,首先都要對你的現有設施進行盤點,然后才能開始診斷。
對于你的數據中心來說,不是僅僅花幾個小時列出一份清單就可以了。作為一個良好的開端,讓人解決問題首先需要提供細節。這些細節包括每一個HBA卡,交換機端口,交換鏈路(ISL),存儲端口如何配置等等,當然還包括存儲產品本身是如何配置的。
如果這些信息能夠被分析工具頻繁捕捉下來的話是最好的(換句話說,不要使用電子表格)。電子表格并非專業的IT診斷工具。我們曾經看到過一個故障排除項目,從其開始服務器(服務器租用找億恩柯南:QQ 965171276)虛擬化項目以后,其電子表格清單已經有超過6個月沒有更新。要知道事情發生了變化。坦率地說,如果你的信息清單已經有幾周沒更新了,特別是在一個虛擬環境下,那么你應該更新一下,不要怕麻煩。重新編制好的清單可能需要執行,所以你最好在環境出現問題的時候做一下預算編制。實時采集的價值在于其可以提供出現故障時環境變化的線索。這些變化通?梢蕴峁┏鲥e線索。通常,這些工具可以捕獲記錄于系統上的物理錯誤,并可以提供一些分析。但最重要的是,實時捕捉可以幫助您在發生前防止#fail。
對于大多數基礎設施硬件的問題而言,存儲硬件和其軟件組件的問題不在于他們沒有提供足夠的診斷信息,而是他們提供的太多,因此,重要的信息就會在這其中被錯失。這些分析工具可以將確實需要注意的信息,或同問題相關的消息突出。當然,如果要解決一個存儲難題,在制作一個精確的報表以外還有很多工作要做。但是,解決問題的第一步在于,知道你要做什么。 本文出自:億恩科技【www.endtimedelusion.com】 |