《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于Lucene全文檢索引擎的應用研究
基于Lucene全文檢索引擎的應用研究
來源:微型機與應用2010年第22期
朱雪蓮
(新疆藝術學院基礎部(思政部), 新疆 烏魯木齊 830049)
摘要: Lucene是一個強大的全文索引引擎工具包, 它的全文檢索技術是信息檢索領域廣泛使用的基本技術, 具有訪問索引時間快、多用戶訪問、跨平臺使用的特點。介紹了一個高性能的全文檢索引擎——Lucene開源系統,詳細分析了Lucene的系統結構、全文索引機制,然后將其引入具體應用,給出了一個基于Lucene全文檢索技術的具體實例。
Abstract:
Key words :

摘  要: Lucene是一個強大的全文索引引擎工具包, 它的全文檢索技術是信息檢索領域廣泛使用的基本技術, 具有訪問索引時間快、多用戶訪問、跨平臺使用的特點。介紹了一個高性能的全文檢索引擎——Lucene開源系統,詳細分析了Lucene的系統結構、全文索引機制,然后將其引入具體應用,給出了一個基于Lucene全文檢索技術的具體實例。
關鍵詞: 全文檢索技術; Lucene; 索引

    Lucene作為一個開放源代碼全文檢索工具包,具有優異的索引結構和良好的系統架構, 不僅可以通過它來構建具體的全文檢索應用, 而且能方便地集成到各種系統軟件中,本文對Lucene進行深入的研究和分析,以此為基礎設計實現了一個以商業網站中構建搜索引擎的實例。
1 全文檢索引擎Lucene
1.1  Lucene概述

    Lucene是用Java寫的全文檢索引擎工具包,并不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,可以提供多個應用程序編程接口函數和數據存儲結構,并能方便地嵌入到各種應用中,從而實現針對應用的全文索引/檢索功能。
1.2  Lucene系統結構
    Lucene的系統結構中運用了面向對象的設計思想,定義的索引文件格式與平臺無關,并通過抽象將系統的核心組成部分和具體的平臺部分設計為抽象類,與具體平臺相關的部分例如文件存儲也封裝為類,經過層層處理,形成了一個低耦合、高效率、容易二次開發的檢索引擎系統。系統結構圖如圖1所示。

    從圖1看到Lucene系統是由基礎結構封裝、索引核心、對外接口三大部分組成。其中索引核心部分是系統的重點。 Lucene中共有7個子包,每個包的具體功能見表1,核心類包主要有: org. apache.lucene. analysis; org. apache. lucene. Index;org. apache.lucene. search。

1.3 Lucene全文索引機制
    Lucene索引存儲結構采用層次結構,主要由索引、字段、文檔、字、詞組成,在存儲正向信息時通常是按層次保存從索引到詞的包含關系,即Lucene索引文件由若干段(Segment,相當于表)組成,每一段由若干的文檔(document,相當于表中記錄)組成,每一個文檔由若干的域(Field,相當于表中字段)組成,每一個域由若干的項(Term,相當于表中數據)組成; 而反向信息則保存了詞典到倒排表的映射。因此,索引存儲結構設計比較通用,輸入輸出結構類似于數據庫中的表→記錄→字段,很多文件、數據庫等都能較為方便地映射到Lucene的索引存儲結構/接口中。
    Lucene訪問索引的時間較快,這是因為大部分數據庫引擎是用B樹來維護索引結構的,更新索引時會導致大量的輸入和輸出操作,而通過Lucene構建的索引文件在擴展索引時,是將新創建的小索引文件定期地合并到原先的大索引文件中,從而提高了索引效率。
2 基于Lucene構建搜索引擎的具體應用
    在實現利用Lucene構建搜索引擎的具體應用時,以在商業網站中構建一個搜索引擎為例,通過爬蟲將各大IT門戶網站提供的商品信息抓取下來,然后對網頁內容進行數據信息抽取并轉換為統一格式的文本文件,并構建專業數據庫和主題詞典,同時將詞典內容擴充到中文分詞模塊中;中文分詞模塊對文件處理器處理生成的文本文件進行分詞處理,并提供詞元序列供索引器索引,并將索引結果保存到索引數據庫中;使用Tomcat Web服務器發布系統的檢索頁面,當用戶通過Web界面輸入要查詢的關鍵詞并提交后,搜索器到索引數據庫中進行檢索,檢索到的結果經過處理之后,作為響應發送給用戶。系統結構如圖2所示。本文將介紹與Lucene相關的設計與實現,并利用Lucene工具包提供的類對其擴展來實現具體的應用。

    首先對抓取下來的網頁內容進行結構化的抽取,并對抽取的內容按固定格式保存、完成主題詞庫的構建、產品數據庫的構建、數據庫處理類的構建等幾項任務,為后續的索引入庫、檢索打下基礎。
2.1 索引庫的建立
    在索引階段需要定義Lucene的Document格式和構建索引的處理類。Lucene的索引庫是通過接口添加一條條索引記錄實現的,首先需要構造一個Document文檔對象,確定Document的各個域,IndexWriter負責接收新加入的文檔,并寫入索引庫中。
    本實例中ProductDocument類靜態方法為一個Product對象構建Lucene的Document,當中包含了 7個Field,分別為identifier(產品ID)、indextime(索引時間)、producturl(產品URL)、category(產品分類)、name(產品名稱)、type(產品型號)、all。前6個Field與數據庫中的內容有直接的對應關系,而all則是將category(產品分類)、name(產品名稱)、type(產品型號)拼接起來,為用戶搜索時提供一個默認Field。具體定義如表2所示。

    關鍵代碼如下:
import org. apache. lucene. document;
public class ProductDocument
{
     //Field名稱,當前產品在數據庫中的ID
     private static final String PRODUCT_ ID="p roductid";
    ……
     public static Document buildProductDocument(Porduct pro-
duct, int id)
      {
          Document doc = new Document( ) ;
       // 此處構建6個Field
       Field identifier;
       Field indextime;
       Field p roducturl;
       Field category;
       Field name;
       Field type;
       //最后一個Field將category、name、type的信息綜合起來,默認在此進行檢索
       Field all;
       // add all
       doc. add ( identifier) ;
       ……
       return doc;
      }
}
  下面的代碼是索引類的代碼,它用于向Lucene索引中添加Document。
public classProductIndexer{
   ......
private void initialize() throws Exception{
      analyzer = new MMAnalyzer();
       FileReader reader = new
     FileReader(dictionary_file);
     ((MMAnalyzer)analyzer). addDictionary(reader);
       writer = new IndexWriter( indexPath, analyzer,
       true);
}
public void close(){...... }
public void addProduct(Product product, int id) throws Exception{
       writer. addDocument ( ProductDocument.
       buildProductDocument(product, id));
          }
          ......
}
    在initialize方法中,初始化了一個JE分詞的MMAnalyzer實例,然后將生成的主題詞庫添加到該實例中。addProduct方法將兩個參數Product和id傳遞到ProductDocument.bulidProductDocument方法里,然后調用IndexWriter的addDocument方法,把生成的產品加入到索引中。至此,數據庫與索引的建立結束。
2.2 檢索
    Lucene的檢索接口主要由QueryParser、IndexSearcher、Hits三個類構成,QueryParser是查詢分析器,IndexSearcher是索引搜索器,檢索時,用戶提交檢索關鍵字,先調用Lucene的查詢分析器分析用戶提交的查詢,然后調用IndexSearcher類進行搜索;返回結果為Hits類,通過它再訪問Document=>Field中的內容。
    本文在深入剖析Lucene的系統結構和索引機制的基礎上,實現了一個商業領域搜索引擎的實例,檢索的結果由結構化的數據組成,描述針對性很強,響應速度快、查準率高。今后,將進一步增加對動態頁面的索引和語義分析來提高搜索的精度。
參考文獻
[1] 管建和,甘劍峰.基于Lucene全文檢索引擎的應用研究與實現[J].計算機工程與設計,2007,1.28(2):489-491.
[2]  車東.在應用中加入全文檢索功能—基于Java的全文索引引擎 Lucene簡介[EB/OL].http://www.chedong.com/tech/lucene.html.2009.03.20.
[3]  邱哲,符滔滔.開發自己的搜索引擎[M].北京:人民郵電出版社, 2007.
[4] 李廣麗,劉覺夫.垂直搜索引擎的研究與實現[J]. 情報雜志, 2009,10.28(10):144-147,169.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产一区二区三区视频在线观看| 亚洲午夜精品久久久久久app| 国产精品av免费在线观看| 美日韩精品视频| 久久久久久9999| 久久精品夜色噜噜亚洲aⅴ| 香蕉尹人综合在线观看| 亚洲欧美成人精品| 亚洲一区中文| 午夜国产精品视频免费体验区| 亚洲女爱视频在线| 亚洲欧美欧美一区二区三区| 亚洲在线视频| 香蕉久久夜色精品| 性欧美精品高清| 欧美一区二区三区久久精品茉莉花| 午夜欧美精品久久久久久久| 亚久久调教视频| 欧美一区日本一区韩国一区| 欧美在线观看你懂的| 欧美一区影院| 久久中文欧美| 欧美极品欧美精品欧美视频| 欧美日韩精品福利| 国产精品国产三级国产| 国产欧美日本在线| 黄网站免费久久| 亚洲风情亚aⅴ在线发布| 亚洲国产综合在线看不卡| 亚洲啪啪91| 亚洲网站在线播放| 性欧美大战久久久久久久免费观看| 欧美在线综合视频| 亚洲人成网站在线观看播放| 夜夜嗨av一区二区三区网页 | 亚洲第一中文字幕在线观看| 亚洲黄色影片| 一本久久知道综合久久| 亚洲欧美在线播放| 久久久精品动漫| 欧美黄色成人网| 国产精品久久久久久av福利软件| 国产欧美一区二区精品仙草咪 | 亚洲日本黄色| 亚洲午夜精品久久久久久app| 欧美一二三区在线观看| 久久人人97超碰精品888| 欧美精品乱码久久久久久按摩| 欧美三区免费完整视频在线观看| 国产嫩草影院久久久久| 亚洲第一综合天堂另类专| 夜夜嗨av一区二区三区| 欧美中文字幕在线| 一本色道久久加勒比88综合| 午夜精品福利视频| 麻豆精品视频在线观看视频| 欧美色播在线播放| 国产一区自拍视频| 亚洲精品一二区| 香港久久久电影| 野花国产精品入口| 欧美专区18| 欧美人与禽猛交乱配| 国产九色精品成人porny| 1024日韩| 亚洲欧美日韩天堂| 日韩视频在线观看免费| 久久成人免费日本黄色| 欧美日产国产成人免费图片| 国产亚洲欧美aaaa| 一本大道久久a久久精二百| 久久精品国产综合精品| 亚洲欧美www| 欧美激情一区二区三区在线视频观看| 国产精品久久777777毛茸茸| 亚洲黄一区二区| 久久超碰97人人做人人爱| 亚洲午夜久久久久久尤物 | 一本色道婷婷久久欧美| 久久久久久久久久久久久女国产乱| 欧美日韩在线一区| 136国产福利精品导航网址应用| 亚洲宅男天堂在线观看无病毒| 日韩午夜av在线| 久久躁日日躁aaaaxxxx| 国产精品久久久久永久免费观看| 亚洲国产一区在线| 亚洲高清自拍| 欧美在线观看视频| 国产精品v欧美精品v日本精品动漫| 亚洲高清视频在线观看| 欧美一区综合| 欧美一区二区三区播放老司机| 欧美三级视频| 日韩一区二区久久| 亚洲精品一区二区三区99| 久久综合电影一区| 国产亚洲福利| 亚洲欧美亚洲| 亚洲欧美日韩在线播放| 欧美日韩精品系列| 亚洲精品123区| 亚洲人成网站影音先锋播放| 久久亚洲国产成人| 国产欧美综合一区二区三区| 亚洲午夜国产成人av电影男同| 一区二区三区 在线观看视频| 欧美精品激情在线观看| 亚洲国产精品久久久久婷婷884| 久久精品免费| 久久人人看视频| 狠狠久久五月精品中文字幕| 欧美一区二区三区的| 午夜视频在线观看一区二区三区 | 国产欧美亚洲日本| 亚洲永久在线| 亚洲欧美在线磁力| 国产精品无码永久免费888| 亚洲香蕉在线观看| 亚洲欧美在线网| 国产精品一区二区女厕厕| 亚洲午夜久久久| 亚洲欧美日韩另类精品一区二区三区| 国产精品第一区| 亚洲自拍偷拍色片视频| 欧美在线播放一区二区| 国产精品夜夜夜| 午夜一级久久| 久久精品日产第一区二区| 国产日韩一区二区三区在线| 欧美在线播放高清精品| 久久青青草综合| 在线欧美亚洲| 日韩一区二区精品葵司在线| 欧美日韩亚洲另类| 亚洲一区二区四区| 久久爱www久久做| 一区一区视频| 99这里只有精品| 国产精品久久久久久久久久尿| 亚洲免费在线观看| 久久国产手机看片| 含羞草久久爱69一区| 亚洲欧洲一区二区三区| 欧美另类综合| 亚洲一区尤物| 久久在精品线影院精品国产| 亚洲激情第一页| 亚洲欧美日韩视频二区| 国产一区二区视频在线观看| 亚洲人精品午夜| 欧美日韩中文在线观看| 亚洲影音先锋| 久久综合九九| 99精品欧美一区二区三区| 性色一区二区| 亚洲国产精品v| 亚洲欧美不卡| 亚洲成色精品| 亚洲综合首页| 激情综合电影网| avtt综合网| 国产欧美日韩一区二区三区在线| 亚洲高清自拍| 国产精品狠色婷| 亚洲成色精品| 欧美日韩免费在线视频| 欧美一区二区三区四区在线| 欧美大片免费久久精品三p| 一本色道久久加勒比88综合| 久久精品国产一区二区电影| 亚洲啪啪91| 久久精品国产视频| 亚洲毛片在线看| 久久免费99精品久久久久久| 亚洲免费高清视频| 久久精品伊人| 正在播放亚洲一区| 久热精品视频在线| 在线中文字幕日韩| 农村妇女精品| 午夜精品久久久久久久久| 欧美激情精品久久久久久蜜臀 | 久久精品国产成人| 亚洲精品在线免费| 久久精品理论片| 日韩视频三区| 免费视频亚洲| 新片速递亚洲合集欧美合集| 欧美人妖在线观看| 久久精品论坛| 国产精品系列在线| 日韩一级大片| 狠狠色综合色区| 欧美一级成年大片在线观看| 亚洲国产激情| 久久久噜噜噜久久人人看| 亚洲视频一起| 欧美日韩国产成人在线91| 亚洲国产天堂久久国产91|