HOME 回資訊服務處首頁 Login
2011年第7期
簡訊
計算中心年度資料庫教育訓練課程
下(4)月份計算中心「資訊訓練與推廣服務」課程預告
本(3)月『資安服務網』新增資安訊息
完成「ACM Computer Package電腦資訊科技相關全文及評論專輯」採購
「本院資訊業務協調會暨資訊主管座談會」3/24圓滿落幕
「2011春季電腦展」4/7-11假世貿1館展出
『2011台北國際資訊安全科技展』暨『亞太資訊安全論壇』4/20-22假世貿南港館舉行
資訊應用
Google協作平台介紹與應用
系統管理
機房事件監控軟體介紹-Splunk
 
系統管理 >
上一篇 | 返回電子報
 
機房事件監控軟體介紹-Splunk
 
蔡忠瑋

前言
 市面上的機房事件監控軟體不勝枚舉,各有各的長處,可監控的設備越多元、需要的管理功能越多,隨之而來的就是較高的成本。Splunk 是利用收集機房設備的紀錄檔 (log),藉此監控機房內系統、設備的狀況,只要是能產生紀錄檔,Splunk 皆能分析處理,並於儀表板 (dashboard) 顯示,且能快速地建置搜尋用的快速索引 (Index)。Splunk 除了能集中化監控設備發生的事件,並作為 log server,記錄所有事先定義好的事件,並依照設定的時間範圍產生觀看的報表。
 Splunk 於官方網站的定義為 Log Server 軟體與 IT 搜尋引擎的結合,從單一平台集中瀏覽整個公司的機房 IT 架構,讓系統管理員從單一管理介面針對所有不同的系統、硬體紀錄與歷史紀錄檔,進行搜尋、報告、監視、警示及分析,系統管理員可於短時間鎖定系統、硬體、應用程式問題及偵測安全事件,而不用耗上很多的時間及人力尋找系統問題 (trouble shooting),更可監視系統,避免服務效能降低或中斷、以提升系統可用度,並依照管理者設定需求提出警示。
 

圖1 Splunk支援的資料類型(資料來源:Splunk 官方網站)

 Splunk支援任何資料、紀錄檔的格式,如:Win Event logs、Syslog、SNMP、Scripted Input、File Input、Network Port、FTP、SCP 等,其不需使用及不需開發轉譯器 (parser/connector),不限制任何作業系統、資料庫、設備、廠牌、版本、格式及虛擬化平台,皆可蒐集所有資料,並建立資料關聯及快速索引(Index),並可針對不同的資料區分快速索引(Index),以達到大量資料快速搜尋(Search)的效益,如上圖1所示。
 基本的架構,是由一台 Splunk 主機負責蒐集資料,由上傳資料的伺服器或設備(此稱 forward),將資料上傳至主機上,並由主機的 Splunk 去建立資料的關連與快速索引,提供管理者查詢、監控、報表產出及其他相關功能。但通常一般企業不止有一台的 forward 需要上傳資料,以計算中心而言,至少有上百的主機、網路設備、虛擬平台的 Guest OS、Storage 設備及異地機房,若考慮到 Splunk 主機處理資料的效能問題,需要做負載平衡,則須採用圖2的架構來進行資料的處理,若需要提升效能並減輕主機的負載,則可增加硬體設備將收集資料的 Splunk 主機分為多台,先將資料蒐集好、分析並建置快速索引,最後管理員再由最上層的 Splunk 主機查詢,此架構也讓 Splunk 在備援以及擴充延展上更具彈性。相對的,如果公司分散於不同的地點,也可以延伸此架構,如此一來可跨區域的管理及查詢,不論是垂直或水平延伸,都更利於集中化管理。
 

圖2 Splunk資料傳輸架構1(資料來源:Splunk 官方網站)

 

圖3 Splunk資料傳輸架構2(資料來源:Splunk 官方網站)

Splunk 功能及特色
    Splurk 的特色及功能分為搜尋引擎、事件警示、報表、監控的儀表板等。

一、 在 IT 搜尋引擎方面,如圖4所示,是 Splunk 吸引人之處,其 IT 搜尋引擎有以下四個特點(參考自Splunk 官網資料):
  1. 快速索引:將 LAN 上面的不同設備、伺服器、作業系統、應用系統所產出的 IT 資料排列及摘要。
  2. 搜尋引擎技術:利用獨特的資料儲存方式,快速找出所要的資料。
  3. 互相關聯的資料:利用條件的方式,快速找出互相關聯的資料,例如: Username、IP 地址、主機名稱、錯誤訊息、Windows Event ID。
  4. 數學運算分析:利用數學運算能力,將搜索出的資料、欄位快速生成互相關聯性的分析及統計報表。
    基於以上及特點,很多管理人員一定很心動,其實並沒有想像的簡單,第一,必須要了解系統、硬體設備的記錄檔訊息,例如:錯誤訊息、事件代碼等…,如此才可以更確實的搜尋到想要的資訊、第二,由於Splunk 的搜尋引擎是採用正規化語法,如需要做到複雜的查詢還是必須要在正規化語法下不少功夫。

 

圖4 Splunk IT搜尋引擎展示
二、 事件警示:Splunk 可根據定時搜索結果進行即時報警、通知及動作,並且可透過預先定義的 Shell Script 重新啟動伺服器或發送執行指令自動處理。
三、 表產出:Splunk 產出的報表多元化且美觀易讀,結合快速及彈性化的搜索產生報表,亦可指定報表資訊的時間範圍。
四、 監控儀表板(Dashboard):透過儀表板編輯器,能迅速地建立即時儀表板。儀表板能夠結合多種圖表與搜尋指令產出的即時資料檢視功能,可滿足不同層級的使用者的需求。除了內建的儀表板外,管理人員可以針對不同使用者身分權限自訂儀表板。
總結
    Splunk 大的特色在於彈性的客製化、快速的搜尋、精美的儀表板及多元化的統計報表,Splunk 運用的廣泛其實歸功於其 XML 客製化的彈性。除了美國,大陸也有很多企業使用 Splunk,對於大陸而言,只要能達成企業的管理目的,大陸企業是很敢花錢的, Splunk 是以單日流量計價,大陸的大企業往往一台防火牆,單日需要分析的資料就高達 50G,再舉個例來說,在大陸廣受歡迎的即時通軟體 QQ 的其中一項服務項目,單日資料流量更是高達 5T 之多,有了 Splunk 的幫助,每日累積的龐大資料就可以輕鬆地提供管理人員查詢及製作報表,並針對事件做警示回報,而台灣警政署,目前也是採用 Splunk 來做客製化的運用,不同權限的使用者所看到的面板也都不同,各管理階層可客製化其面板及產出統計報告,經由客製化後,對於系統管理員而言,trouble shooting 的時間可大幅縮短,讓系統管理員可以將時間花在解決問題,而不是找出問題。
    Splunk 如果要做好客製化,則需要回歸 XML 層面及正規化搜尋語法的建置,以上的條件都需要接受教育訓練以及經驗累積,所以在導入建置時期,顧問的技術支援及人員的教育訓練是很重要的,再者,系統管理者的管理經驗也是非常重要的一環,再好的軟體,若是沒有將實際的系統管理經驗導入,除了耗費極大的建置時間,所呈現的事件資訊也可能是沒意義的資訊,而 Splunk 以單日流量計費的方式,如一股腦地將所有的 Log 沒有經過篩選傳入 Splunk 主機,反而會浪費很多成本,這也是導入時必須注意的事項。
    整體而言,有興趣的管理人員可以嘗試了解 Splunk,官方網站也有開放單日 512MB 的試用版本下載,心動不如馬上行動。

參考資料:

  1. Splunk 官方網站 http://www.splunk.com/
  2. Splunk 用搜尋引擎將 IT 管理化繁為簡投影片, Gandalf Huang



上一篇 | 返回電子報
 
 本電子報所有文字、圖片版權為中央研究院所有 。 電子報出版系統由中央研究院資訊服務處開發。