HOME 回資訊服務處首頁 Login
ITs通訊
搜尋電子報


含詳全文
訂閱電子報
請輸入E-Mail
 
 
2011.10.27 2011年第22期 設為首頁 | 加入最愛 | RSS 訂閱
最新電子報 | 上一期 | 下一期 | 各期電子報


   
中央研究院計算中心通訊
中央研究院計算中心發行
2011年第22期   民國100年10月27日
簡訊
【本院殊榮】中央研究院榮獲NGIS流通服務獎

 本院參與內政部「國土資訊系統資料倉儲及網路服務平台」(TGOS)成為加盟節點,歷時已久。近日參加「99年度TGOS平台加盟節點績效評比活動」,經初評為TGOS績優加盟節點,並於複評中獲得NGIS流通服務獎。頒獎典禮訂於本(100)年11月9日上午,假「2011年台灣地理資訊學會年會暨學術研討會」開幕式中舉行。

 相關訊息請參閱網址:http://tgos.nat.gov.tw/tgos/Web/appraisal/appraisal.html

Top

【中心業務】計算中心院區開放成果展公告
 本院本(10)月22日(星期六)舉辦100年院區開放參觀活動,計算中心於行政大樓1樓展示「多時期變遷之院區三維景觀漫遊」、「看不見連線,看盡中研院」、「徽章映相.非常印象」等3項活動,活動當天約有2千多位民眾蒞臨1樓會場參觀,現場反應熱烈,不但讓參觀者更為瞭解本院3DGIS的發展及院內無線網路與網路電話的發展與應用,更製作民眾個人專屬100年院區開放紀念徽章留念。
Top

【中心業務】99-100年系統科成果

 本中心系統科依業務性質分為系統組、網路組及計算資源組,近兩年(99-100)推動多項資訊服務,為使同仁瞭解服務內容,特製作「99-100年系統科成果」簡報,請同仁多加利用便利服務,並給予建議或指教。謹就較重要服務,摘要說明如下:

  • 系統組
    1. 電子郵件服務:提升郵件處理效能,降低郵件過濾時間由目前平均15秒至8秒,並提升個人郵件信箱由1 GByte到7GByte。
    2. 個人儲存服務:每位使用者可享有10Gbyte儲存空間,可作為資料備份、檔案分享使用。
    3. 虛擬應用服務:進行硬體設備擴充,利用16台實體主機(128 CPU Cores、1088 GBRAM)運行172台虛擬機器,減少硬體維護及購置成本,節省率達90.697%((172-16)/172) ,並建置異地備援功能。
    4. 單一簽入平台:配合人事系統資料彙整,簡化帳號申請及人員異動流程,並使用webservice做為統一存取介面。
    5. 資料庫集中化:清查既有資料庫使用狀況,建立集中管理機制,提升系統安全性並節省維護成本。
  • 網路組
    1. 建置國際網路連線:美國及日本、香港等國際專線連線頻寬皆為2.5Gbps,提供本院與國際網路及亞洲地區研究網路連線使用,月租費節省105萬元。
    2. 無線網路維運更新:由既有802.11a/b/g提升至802.11/a/b/g/n,可提供高達300Mbps的連線頻寬,完成異地備援服務建置。
    3. 動態網路位址配置:建置動態網路位址分配服務,協助院內各所分配動態網路位址,可節省所處網路位址資源,並提供網路位址資源分配統計資訊。
    4. 建置資料中心網路:更新TaipeiGigaPoP骨幹網路設備,採用虛擬化技術以一台實體設備模擬成二台設備,節省電力及機房空間,並提供高速網路交換服務。
    5. 虛擬專屬網路整合服務:可降低實體光纖使用率,並結合本院建置之fully mesh光纖架構,提供實體光纖連線斷線偵測及自動路由選擇,目前計有統計所、應科中心、環變中心、資創中心、資訊所、生多中心、數位典藏計畫及史語所共8個所處中心使用此服務。
    6. 網路電話整合服務:預計100年底完成總辦事處及18個交換機所處,101年4月完成其他centrex所處。可提供本院使用者與TANet網路電話通信,並整合行動通訊服務,結合網路傳真、網頁電話及Skype服務,不改變使用者撥號習慣,並提供分機互撥及市話外撥備援。
  • 計算資源組
    1. 建置綠色節能機房:為符合節能減碳的環保概念,進行電腦機房整建,以提高用電效率,施工項目包含:採用高效能不斷電系統、高ERR冰水機、機櫃式空調及冷熱通道隔離,目前PUE值降至1.4。
    2. 建置異地備援機房:為因應突發狀況,於台大天數館建置異地備援機房,並對重要服務及資料建置備援系統。
    3. 建立集中儲存環境:為降低管理成本及有效利用儲存空間,率全國之先,建置集中儲存環境,可外接不同廠牌之儲存設備,更提高擴充性、效能及資料安全性。
    4. 建置長久保存系統:為滿足保存時間長及資料量大之備份需求,規劃資料長久保存方法以建置新的長久保存系統,並進行資料轉置於新系統。
    5. 建置InfiniBand環境:為滿足高速計算之資料交換需求,採購InfiniBand交換器並建置大記憶體計算節點,同時放寬資源使用政策,提高系統使用率至80%以上。
Top

【中心業務】計算中心完成「院區車輛通行卡續卡」系統
 本院院區車輛通行卡續卡申請按例於11月間辦理。自本(100)年11月1日至30日開放使用。,請由本院網頁之「院內行政服務」項下之單一簽入服務還項下登錄辦理。除新申請者及特殊情形外,不受理紙本及個別申請,請同仁務必登入系統申請續辨,並自行選擇繳費方式(繳交現金或薪資扣款)及停放區域。計次卡不需加值之同仁亦請登錄系統,以便 統一辦理換發新證。
Top

【教育訓練】計算中心下(11)月開放報名「資訊推廣」課程公告

上課日期

課程名稱

適合對象

講師

11/01-02
(二)(三)
SAS Enterprise Guide: ANOVA, Regression, and Logistic Regression

欲使用SAS Enterprise Guide進行統計分析的使用者而設計

彭國榮先生
11/17(四) 「EndNote X5書目管理軟體」教育訓練
上午(初階)
下午(進階)  

需要建立書目資料,或對書目管理軟體的使用有興趣的同仁

龔怡敏小姐
11/23-24
(三)(四)
Linux 入門簡介與基本操作

Linux系統管理初學者

彭逸帆先生
Top

【中心業務】計算中心gate電子郵件地址簡化服務於100年10月25日正式上線

 為縮短本中心gate電子郵件地址以便於使用,亦即電子郵件地址USERID@gate.sinica.edu.tw可簡化為USERID@sinica.edu.tw,計有7081位使用者享有此服務。

 以往,電子郵件服務採取較開放之地址簡化申請服務,即部分使用者如kan@math.sinica.edu.tw申請kan@sinica.edu.tw,造成kan@gate.sinica.edu.tw不能簡化為kan@sinica.edu.tw。為保障原有申請者之權益,已申請轉寄之設定不變,使用者無需申請及更改既有收發信設定,惟後進64人(帳號清單請參照頁:http://www.ascc.sinica.edu.tw/sysinfo/mail/malias_list.html)無法享用此一服務,本中心甚表歉意。

 隨著人員之異動,本中心未來亟當盡力協調gate電子郵件帳號與簡化地址一致,期可提供表列64人儘早享有電子郵件地址簡化服務。

Top

【教育訓練】計算中心下(12)月教育訓練程預告

 

上課日期

課程名稱

適合對象

講師

12/01(四) Excel 2010資料統計與建置
  1. 需有Excel 2010使用經驗的同仁

  2. 有工作需求的同仁

外聘
12/08(四) Excel 2010資料分析與運用
  1. 需有Excel 2010使用經驗的同仁

  2. 有工作需求的同仁

外聘
12/21(四) PowerPoint 2010圖解互動簡報設計
  1. 需有PowerPoint 2010使用經驗的同仁

  2. 有業務需求的同仁

外聘
  網路技術基礎課程

僅限院內各單位資訊室同仁

 
Top

【中心業務】JOURNAL CITATION REPORTS Social Sciences 1999 Edition版本更新通知
 JCR為期刊評鑑中重要的工具,也是期刊引證資料的唯一來源,分為Science Edition與Social Sciences Edition兩類。

 原JOURNAL CITATION REPORTS Social Sciences 1999 Edition為TTSLink版本,因TTSLink應用軟體已停止維護,故由經濟所採購Web版且開通連線使用。請點選進入後直接選用 Journal Citation Reports,收錄年代自1999開始,歡迎同仁多加利用。

Top

【資安通報】Google Chrome 存在多個弱點,請使用者儘速更新!

弱點通告 

  • 詳細描述:
    Google Chrome 存在多個弱點,惡意人士可透過引誘使用者瀏覽事先建立的惡意網頁後,便可執行任意程式碼、提升權限、規避部份安全限制等讓使用者系統受駭之安全性弱點。
    目前已知會受到影響的版本為 Google Chrome 13.X 之前的版本,中華電信SOC 建議使用者應儘速上網更新,以降低受駭風險。 
  • 受影響系統:
    Google Chrome 13.X(含)之前的版本 
  • 解決辦法:
    手動下載安裝:
    Google Chrome 14.0.835.163 (含)之後版本
Top

【資安通報】Adobe Reader /Acrobat 存在多個弱點,請使用者儘速更新!

弱點通告

  • 詳細描述:
    Adobe Reader /Acrobat 存在多個弱點,惡意人士可透過引誘使用者瀏覽事先建立的惡意網頁後,便可執行任意程式碼、提升權限、規避部份安全限制等讓使用者系統受駭之安全性弱點。
    目前已知會受到影響的版本為 Adobe Reader/Acrobat X (10.1)(含)之前的版本(Windows/Macintosh) 、 Adobe Reader/Acrobat 9.4.5 (含)之前的版本(Windows/Macintosh/UNIX) 以及Adobe Reader/Acrobat 8.3 (含)之前的版本(Windows/Macintosh) ,中華電信SOC 建議使用者應儘速上網更新,以降低受駭風險。
  • 受影響系統:
    Adobe Reader X (10.1)(含)之前的版本(Windows/Macintosh)
    Adobe Reader 9.4.5 (含)之前的版本(Windows/Macintosh/UNIX)
    Adobe Reader 8.3 (含)之前的版本(Windows/Macintosh)
    Adobe Acrobat X (10.1) (含)之前的版本(Windows/Macintosh)
    Adobe Acrobat 9.4.5 (含)之前的版本(Windows/Macintosh)
    Adobe Acrobat 8.3 (含)之前的版本(Windows/Macintosh)
  • 解決辦法: 
    手動下載安裝:
    Adobe Reader /Acrobat 安全性更新

Top

【資安服務】可疑網站 / 網址分析

線上網站 / 網址檢測

瀏覽器套件 / 獨立工具

  • WOT
    【網址】http://www.mywot.com/
    【說明】瀏覽器套件,利用社群的力量,將網頁依「可靠性」、「供應者可信賴性」、「 隱私性」與「 兒童安全」四項指標來判斷其所瀏覽的網頁是否可信賴
  • McAfee SiteAdvisor
    【網址】http://www.siteadvisor.com/
    【說明】瀏覽器套件,資安廠商 McAfee 所推出的網站安全評等服務
  • WTP Add-On 網頁威脅防禦工具
    【網址】http://www.trendmicro.com.tw/wtp/micro/index.asp
    【說明】獨立工具,資安廠商趨勢科技所推出的網頁威脅防禦工具,所有的流量都會先經過 WTP 的過濾,確定其所監控的網頁沒有問題才會放行

Facebook 訊息 / 連結檢測 - 需安裝 Facebook App -

Top

【中心業務】辦理ChemBioOffice全院授權採購及驗收

 依97年4月17日本院第7次資訊業務協調會提案(四)結論,自97年9月起,由本中心代為辦理ChemBioOffice全院授權採購案。今(100)年度已於10/5日完成招標作業,並於10/26日完成驗收。

 本院ChemBioOffice Ultra主要使用單位為化學所、基因體中心及生化所,經費亦由上述單位分攤。上述單位之使用者如有需求,請逕至所屬單位之資訊室洽詢。

Top

【中心業務】完成2010年西文期刊驗收作業
 本院數理科學組共同辦理招標之2010年西文現期期刊結案驗收,中心部份已於本(10)月14日上午10時,假中心會議室由圖書組陳亞寧組長主驗,計25種期刊皆正常到館,無退罰款事宜,故本中心已完成相關驗收作業。

  現由召集單位(物理所)協助各單位依合約辦理期刊未到之退罰款作業中。待退罰款作業完成後,再一起辦理結案。

Top

『教育訓練』數位典藏與學習專業培訓課程即日起開放報名

 數位典藏與學習專業培訓課程即日起開放報名,招收80人。

 本課程第八場起將陸續以「圖像處理與修復技術」、「圖像與影音之管理」、「資訊檢索技術」為主題,歡迎報名參加!

 各場次列表:

場次 主題 時間 地點 主講人
圖像處理與修復技術 10月27日(四) 國立臺灣大學法律學院霖澤館多媒體教室

中央研究院資訊科技創新研究中心譚家棟
圖像與影音之管理 11月16日(三) 國立臺灣大學法律學院霖澤館多媒體教室 中央研究院資訊科學研究所范紀文

資訊檢索技術

11月23日(三)

國立臺灣大學物理系凝態科學研究中心1樓104室

中央研究院計算中心
沈漢聰、陳慧娉

  • 詳情請參閱網址:http://dlm.ntu.edu.tw
  • 主辦單位:國家型計畫數位典藏與學習人才培育計畫
  • 協辦單位:數位技術研發與整合計畫
  • 如有任何疑問,請洽專任助理王孟禎,電話:(02)3366-5227。
Top

『展 訊』逗陣來看展-數位鬥陣-99年度數位內容公開徵選計畫成果展
Top

『研討會』歡迎報名【邁向數位元年 – 數位匯流內容示範開發成果分享會】
Top

資訊新知
全文檢索伺服器Solr初探

一、概觀
 全文檢索系統是針對大量文件的內容,可輸入任意字詞的關鍵字及其邏輯運算(AND、OR 、NOT)等,進行快速內文查詢,並提供查詢結果,依其文件符合程度的評分排序或文件相關資訊分類,以便進一步進行統計、分析及彙整的系統。常見的全文檢索的資料對象有新聞、文件報告、期刋、書籍或是網站內容等。

 對內文進行搜尋最簡易的方式就是逐字比對的循序搜尋(Sequential Search)法,但是對於大量的長篇文件搜尋,就會有效率不彰的問題了。全文檢索系統採用索引的方法,也就是先將文件內容切割出字詞單元(token),再將這些字詞以「雜湊表」或「B+樹」等資料結構,建立索引檔,紀錄其文件編號及在文件中出現的位置。在進行查詢時,系統先將輸入的字串,進行字詞單元分析,再將這些字詞一一使用索引快速搜尋,接著將結果依輸入的條件進行邏輯運算,並依在文件中出現的次數等關係計算各結果的權重,最後排序輸出結果。

 某些資料庫系統中,例如MS SQL與Oracle皆有內建簡易的全文檢索功能。但是要進行較為複雜客製化的全文檢索功能,就捉襟見肘了。必須另外採用專業的全文檢索引擎才能達成了。目前開放源碼的專案中已有十年歷史的Lucene是個不錯的選擇。Lucene是Apache基金會開放源碼計畫之一,以Java語言撰寫,具有支援Unicode多國語言,在網路社群中持續發展等優點,並且有眾多的開放源碼系統以其為核心。但缺點是Lucene是以程式庫的方式提供,必需以Java語言撰寫程式才能取用,且功能繁瑣,學習期長,並不易切入進行實作。

 Solr是開放源碼的全文檢索伺服器,以Lucene 程式庫為核心,進行全文資料的索引建立和搜尋執行;並且以HTTP協定的方式提供Web service,方便各種程式語言呼叫。Solr提供強大的設定檔,在不需編寫Java碼的情況下,就可以配置供一般全文檢索用途使用;有特殊需求時,亦可依循其插件(plugin)架構,編寫擴充功能。
Solr原為Apache基金會的子計畫之一,已於2010年併入Lucene計畫中。並於2011年中開始在Lucene中同步發行3.x版,解決了兩者版本落差的問題,更突顯Solr的重要性。

二、系統特性
 Solr主要的特性包括全文檢索、命中標示(hit highlighting)、層面檢索(faceted search)、動態群聚分類(clustering)、資料庫整合、文件(如WORD,PDF檔)處理及空間資料搜尋。Solr具有高度擴充性的架構,提供分散式檢索及索引資料庫複製等功能。許多的大型網站,採用Solr提供搜尋及瀏覽操作的功能。

 Solr使用Lucene搜尋程式庫,並且大幅擴充其功能!具有以下特性:

  1. 使用設定檔定義資料Schema,包含數字類別、動態欄位及唯一鍵(Unique Key)
  2. 擴充Lucene的查詢語法
  3. 層面分類搜尋及縮小範圍過濾功能
  4. 地理空間資料搜尋
  5. 使用設定檔就可設定原始資料文本分析(tokenize)及過濾(字幹處理、停用字)
  6. 可設定的搜尋結果快取(Cache)
  7. 搜尋效能優化
  8. 使用XML格式系統設定檔
  9. 提供系統管理用界面
  10. 提供監視用的系統記錄(Log)
  11. 快速增量式更新及索引複製
  12. 具有可跨數個主機的調配式分散搜尋
  13. 進行索引的原始資料,可使用JSON、XML、CSV /符號分隔的文字檔和二進制檔等格式
  14. 可從本地磁碟或HTTP來源,取得資料庫或XML文件資料,進行索引
  15. 使用Apache Tika進行豐富文件(PDF,WORD,HTML等)解析及索引
  16. 支援多個資料索引
  17. 支援多國語言資料分析

三、系統安裝
 依Solr tutorial(http://lucene.apache.org/solr/tutorial.html)說明,可按步就班安裝Solr系統,以及使用下載檔中的範例schema及範例資料,快速的開始執行系統,進行各項基本系統管理、檢視系統設定、檢視schema設定、進行索引建立、測試各式檢索語法、以及偵錯各項功能等工作,由此可以迅速暸解Solr的運作方式。

 下列步驟說明如何安裝solr 3.3系統、範例schema及範例資料:

  1. 系統需求
      Java 1.5或以上版本,可以在命令列使用java –version檢查系統中現有Java的版本。
  2. 下載Solr
    在Solr首頁(http://lucene.apache.org/solr/)中,點選「Download Solr」,取得一份最新版本的Solr,例如apache-solr-3.3.0.zip。
  3. 安裝步驟
    以Unix環境為例,步驟如下:
    $ ls
    apache-solr-3.3.0.zip
    $ unzip -q apache-solr-3.3.0.zip
    $ cd apache-solr-3.3.0/
  4. 啟動系統
    Solr伺服器可在任何Java Servlet容器中執行。在Solr的example目錄中,已經包含了Jetty Servlet容器、Solr WAR及範例系統設定,可用下列指令啟動服務:
    $ cd example/
    $ java -jar start.jar
    Jetty使用port 8983提供服務,並且在命令列中顯示log資訊。你可以使用瀏覽器讀取http://localhost:8983/solr/admin/,觀察正在執行的Solr,這也是管理介面的進入點,其畫面如下:

圖一、管理介面

四、建立索引資料
 已執行的Solr伺服器中,並無資料存在。可以經由HTTP的方式,post含有指令及資料的XML文件,更新索引檔內容。XML文件中可用的指令包括新增/更新文件、刪除文件、commit尚未寫入的修改及最佳化索引等。

 在Solr系統exampledocs目錄中,附有一些範例資料檔。其中monitor.xml檔內容如下:

<add><doc>
  <field name="id">3007WFP</field>
  <field name="name">Dell Widescreen UltraSharp 3007WFP</field>
  <field name="manu">Dell, Inc.</field>
  <field name="cat">electronics</field>
  <field name="cat">monitor</field>
  <field name="features">30" TFT active matrix LCD, 2560 x 1600, .25mm dot pitch, 700:1 contrast</field>
  <field name="includes">USB cable</field>
  <field name="weight">401.6</field>
  <field name="price">2199</field>
  <field name="popularity">6</field>
  <field name="inStock">true</field>
  <field name="store">43.17614,-90.57341</field>
</doc></add>
 

 文件中<add>標籤為新增或更新資料的指令,其中<doc>為文件資料內容,<field nam=””>為各欄位資料,一個<add>指令可包含多個<doc>文件。另外可以使用的指令有<delete>、<commit/>及<optimize/>。執行下列指令,即可將monitor.xml檔中的資料建入索引中: 
 $ cd exampledocs
 $ java -jar post.jar monitor.xml
 用同樣的方法可將所有的範例文件建入索引中:
$ java -jar post.jar *.xml

 另外Solr也提供滙入資料庫資料、滙入CSV檔、使用JSON格式、取出Word或PDF檔建入索引、或是使用SolrJ或其他程式語言所撰寫的程式產生資料送入Solr中等等的方法建立索引。

  1. 更新資料
    只要修改XML資料檔內容,再post到Solr即可修改已存入索引的資料。
  2. 刪除資料
    使用delete命令,post到Solr的更新資料網址http://localhost:8983/solr/update,即可刪除符合查詢條件的資料。通常會使用唯一值的欄位,做為選取的條件,例如:
    $ java -Ddata=args -Dcommit=no -jar post.jar "<delete><id>SP2514N</id></delete>"
    就可刪除id欄位值為SP2514N的那筆資料了。

五、管理介面功能
 管理介面(如圖一)各功能說明如下:

  1. SCHEMA:顯示目前系統schema定義檔(example\solr\conf\schema.xml)的內容。
  2. CONFIG:顯示目前系統設定檔(example\solr\conf\ solrconfig.xml)的內容。
  3. ANALYSIS:欄位分析工具。如圖二,輸入欄位類別或名稱、欄位內容及查詢字串。可觀察依schema所設定,該欄位的內容在系統中如何經過那些元件處理後建入索引;及查詢的字串如何被處理,與索引內容比對的結果,是開發階段除錯的絕佳工具。圖中測試名稱為text的欄位,索引的資料首先透過Index Analyzer中的analysis.StandardTokenizerFactory切割為數個token,其中的this因查詢比對成功,而標上藍色底色。

    圖二、欄位分析

  4. SCHEMA BROWSER:schema瀏覽器。Solr中的欄位相關設定分為欄位、動態欄位及欄位類別三類。如圖三顯示欄位大類中的NAME欄位,其類別為TEXT_GENERAL,其屬性為索引(indexed)、單元分析(tokenized)及儲存內容(stored),以及其索引分析器及查詢分析器設定,且已有17個文件使用該欄位。

    圖三、schema瀏覽器

  5. Statistics:顯示目前系統中各元件的名稱、版本及執行狀態。檢查畫面中顯示的numDocs值,可得知Solr系統已儲存幾筆文件。
  6. Make a Query:在「Query string」輸入欄中,使用Solr查詢語法,可進行查詢測試。可使用的基本語法舉例說明如下:

    輸入

    說明

    *:*

    語法為:欄位名:查詢字串。此為所有欄位的資料

    ipod

    針對系統內定欄位text,查詢ipod字串

    name:ipod

    針對name欄位,查詢ipod字串

    i*

    查詢含有以i開頭的資料,*為0或多個字的wildcard

    te?t

    可以查詢test及text等字串,?為1個字的wildcard

    foo AND bar NOT baz

    查詢含有foo及bar,但沒有baz者

    foo && bar !baz

    作用同上

    +foo bar -baz

    查詢一定含有foo,可以有bar,但沒有baz者

    (jakartaOR apache) AND website

    查詢含有jakarta或apache,且有website字串者

    title:"The Right Way"

    針對title欄位,查詢含有The Right Way字串

    price:[2000 TO 3000]

    針對price欄位,查詢介於2000到3000

    price:[* TO 1000]

    查詢price小於等於1000者

  7. Make a Query – Full Interface:完整版查詢測試。例如圖四中輸入的查詢條件為:查詢name欄位為canon、過濾條件為cat欄位是electronics、由第二筆結果開始、回傳一筆資料、回傳的欄位有cat/id/name/price及評分值score、回傳格式為XML、啟動命中標示功能並標示name欄位中的內容。

    圖四、查詢測試


     點選「Search」後,這些查詢參數將以網址的形式組合如下,傳送到Solr伺服器:
    http://localhost:8983/solr/select?q=name%3Acanon&fq=cat%3Aelectronics&start=1&rows=1&fl=cat%2Cid%2Cname%2Cprice%2Cscore&qt=&wt=xml&hl=on&hl.fl=name
    這也是撰寫應用程式時,以HTTP方式向Solr伺服器所提交的呼叫。伺服器進行檢索後,以XML格式回傳結果如下:
    <response>
     <lst name="responseHeader">
      <int name="status">0</int>
      <int name="QTime">3</int>
      <lst name="params">
        <str name="hl.fl">name</str>
        <str name="wt">xml</str>
        <str name="hl">on</str>
        <str name="rows">1</str>
        <str name="fl">cat,id,name,price,score</str>
        <str name="start">1</str>
        <str name="q">name:canon</str>
        <str name="fq">cat:electronics</str>
      </lst>
     </lst>
     <result name="response" numFound="2" start="1" maxScore="1.3673005">
      <doc>
       <float name="score">0.8545628</float>
       <arr name="cat">
          <str>electronics</str>

     在responseHeader中status=0,表示查詢成功;QTime=3為耗時3ms;result中 numFound="2"表示找到2筆文件;score=0.8545628為該文件全文檢索的評分值;highlighting為命中標示,標示name欄位中的內容,以<em>標籤標示出命中字串。應用程式只要解析這個回傳的XML內容,編排後就即可在網頁中呈現檢索結果。這個功能可供程式員在開發階段檢視request及response的詳細內容。

六、功能展示
 Solr系統中提供使用velocity模版所撰寫的範例查詢介面,其中展示了檢索、層面分類(faceting)、命中標示、自動提示(autocomplete)及空間資訊查詢等功能,可供暸解系統及開發時參考用。以瀏覽器開啟http://localhost:8983/solr/browse,即可使用範例介面,如圖五。

圖五、範例查詢介面


 畫面左上方顯示基本查詢及空間資訊查詢;畫面左側為各式的層面分類;畫面中間為查詢結果的各筆資料,各展示功能說明如下:

  1. autocomplete:在查詢欄位中輸入查詢條件時,依據索引中所儲存的token顯示自動完成提示,例如輸入i時,提示ipod及in。
  2. Field Facets:欄位層面分類。範例中的cat(類別)為多值欄位,例如「USB cable」資料同時屬於electronics及connector類。在畫面上點選「connector」時,結果畫面就會縮小範圍為只屬於「connector」者。
  3. Query Facets:查詢層面分類。系統內部設定以「ipod」及「GB」為查詢層面分類條件進行分類統計。
  4. Range Facets:範圍層面分類。例如:價錢範圍或製造日期範圍。
  5. Clusters:動態群聚分類,是針對搜尋結果的欄位內容,進行分析,動態的產生分類大項。伺服器必須以下列方法啟動,方可使用此分類功能:
    java -Dsolr.clustering.enabled=true -jar start.jar
  6. 命中標示:伺服器中提供命中標示元件,可指定欲標示的欄位。範例中,使用<em>標籤標示命中的內容。
  7. More Like This:相關文件搜尋是自動根據搜獲的文件內容,再搜尋出相似的文件。
  8. Spatial:空間查詢。點選左上角「Spatial」,就會出現Location Filter及Distance查詢條件欄位,可針對座標欄位進行比對。
  9. 分頁:Solr系統進行查詢時,可限定返回的開始資料位置及返回的筆數,達到分頁的功能。例如畫面顯示的「3 results found. Page 1 of 1」。

七、應用系統開發
 開發使用Solr的應用系統,有多種程式語言可使用,例如Ruby、PHP、Java、Python、.NET、Perl及Javascript。基本上可進行HTTP協定通訊及讀寫XML或JSON格式資料的程式語言,都能使用。

 供PHP語言用的常見程式庫有solr-php-client及Apache Solr PHP Extension,另外直接使用PHP的file_get_contents() function直接讀寫Solr server也很方便。在Solr的default安裝中已包含的client端程式庫,有ruby的solr-ruby,其中也附上完整的範例;另外也包含供Java語言開發使用的SolrJ程式庫。
某些知名的開放源碼專案中,也提供Solr的模組或插件,做為內部資料檢索的解決方案,例如ColdFusion、Django、Drupal、eZ Find、Plone、TYPO3及WordPress等專案。

八、結論
 Solr已將全文檢索伺服器包裝成只要經由修改系統設定及schema定義二個XML格式的文字檔,就可運作。以MVC系統架構觀點而言,Solr已提供了Model的功能,應用系統只要將心力專注於View的畫面配置與UI設計,以及Controller的request的HTTP URL參數編排、回傳結果的XML/JSON內容解析就可以完成系統了。Solr大幅的簡化全文檢索系統開發的複雜度。

九、參考資料

  1. Apache Solr Project - http://lucene.apache.org/solr/
  2. Apache Lucene Project - http://lucene.apache.org/
  3. Who uses Lucene/Solr? http://www.lucidimagination.com/why-lucid/who-uses-lucid
  4. Lucene Query Syntax - http://lucene.apache.org/java/2_4_0/queryparsersyntax.html
  5. Solr Client Libraries / Language Bindings - http://wiki.apache.org/solr/IntegratingSolr
Top

創刊日期:74年10月15日
發行人 :王大為
總編輯 :曾士熊
編輯小組:葛行慧
網站技術:網頁技術及出版組
出版日期:民國100年10月27日


服務專線:(02)2789-9866
E-mail:publish@gate.sinica.edu.tw
訂閱與取消訂閱 | 各期計算中心通訊 | 中研院計算中心 | 中央研究院

本電子報所有文字、圖片版權為中央研究院所有,未經許可請勿轉載。
如對本報有任何意見,請與我們聯繫。
   
 
 本電子報所有文字、圖片版權為中央研究院所有 。 電子報出版系統由中央研究院資訊服務處開發。