通信世界網消息(CWW)隨著云化轉型的深入,在網運行服務器數量在不斷增加,服務器死機和重啟成為運維中難以避免的現象。有沒有一種功能或者工具能夠記錄死機、重啟前一刻發生了什么,并能夠分析服務器各種異常參數?這里不得不提一種叫“黑匣子”的技術。
“黑匣子”是電子飛行記錄儀的俗稱,用于記錄飛機飛行和性能參數的儀器。飛行記錄儀記錄的信息可用于飛行事故分析,人們可根據飛機墜毀前記錄的數據和話音記錄,經處理后送入一種飛行模擬器,重現事故的過程,形象地分析事故原因。
服務器上有一個獨立的BMC系統(BaseboardManagement Controller),通俗來講,BMC是整個服務器單板的大管家,從服務器上電那一刻,它所有部件均由BMC來負責和管理。BMC主要用于對服務器各個部件(CPU、內存、硬盤、風扇、機框等)的溫度、電壓等健康狀態進行檢測,同時根據各個溫度采集點情況實時調整風扇轉速避免服務器產生過溫、總體功耗過高的情況發生。如果單板部件出現任何異常則通過SNMP協議、SMTP協議、Redfish協議等多種業界通用規范將信息及時上報給上層網管,以便運維人員及時處理,保障業務無損。BMC主要用于采集單個服務器上的信息,同時將信息提供給上層運維網管軟件,一般情況下BMC軟件上報的消息中會指明哪個部件產生故障以及處理建議等。
服務器的“黑匣子”功能是BMC系統不可或缺的一部分,它起到了與飛機“黑匣子”同樣的作用。系統正常運作時,“黑匣子”記錄著系統的各種運行參數;當BMC檢測到致命故障或者系統異常狀態,“黑匣子”將記錄下發生故障時的系統狀態。故障分析人員通過“黑匣子”中記錄的數據,可快速定位故障發生的那一刻,并分析異常產生的根本原因。雖然通過系統的崩潰日志等其他手段也可以進行故障分析和定位,但是均比“黑匣子”功能費時費力,“黑匣子”可簡單而直接的記錄底層硬件數據,可更加快速地解決硬件故障引發的系統問題。
市面上的“黑匣子”功能有帶內管理和帶外管理兩種方式,帶外管理(out-of-band)是基于硬件的一種管理方式,使用專用硬件模塊或特殊的遠程管理卡提供管理接口,通過專用的數據通道對設備進行遠程維護和管理,完全獨立于設備操作系統之外,甚至可以在設備關機狀態下進行遠程監測與管理。帶內管理(in-band)需要在OS層安裝原廠或者第三方驅動,對于客戶數據敏感的應用,如果通過帶內管理需要對OS層的驅動進行全方位測試和驗證,以防止驅動程序的漏洞被利用,造成數據泄露。
中興通訊全系列服務器產品均搭載“黑匣子”功能,并提供一鍵故障解析工具,可在系統出錯的第一時間分析故障根本原因,對于可糾正級的輕微錯誤,比如CPU QPI總線CRC錯誤,PCIE總線錯誤,根據大量的外場故障數據進行分析,總結規律閾值,事前通知用戶,可以有效地提前預判故障。同時,中興通訊的“黑匣子”功能和一鍵解析工具均通過帶外方式進行數據采集,可有效避免用戶數據泄露的風險。
未來,中興通訊將秉持開放合作的理念,堅持自主創新之路,以核心技術為基石,突破傳統生態,持續推動服務器產品生態的繁榮發展。
來源:通信世界全媒體