《電子技術(shù)應用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計應用 > Web日志挖掘中一種改進的會話識別方法
Web日志挖掘中一種改進的會話識別方法
來源:微型機與應用2010年第15期
周愛武,程 博
(安徽大學 計算機科學與技術(shù)學院,安徽 合肥 230039)
摘要: 提出了一種改進的會話識別方法。該方法基于訪問站點的首頁和導航頁,以首頁或?qū)Ш巾撟鳛樾聲掗_始的標識。選取真實的Web日志,用PL/SQL編程實現(xiàn)改進的會話識別方法,并與現(xiàn)有方法進行比較。實驗結(jié)果證明,改進的會話識別方法比現(xiàn)有方法識別會話更有效。
Abstract:
Key words :

摘  要: 提出了一種改進的會話識別方法。該方法基于訪問站點的首頁和導航頁,以首頁或?qū)Ш巾撟鳛樾聲掗_始的標識。選取真實的Web日志,用PL/SQL編程實現(xiàn)改進的會話識別方法,并與現(xiàn)有方法進行比較。實驗結(jié)果證明,改進的會話識別方法比現(xiàn)有方法識別會話更有效。
關(guān)鍵詞: 數(shù)據(jù)預處理;Web日志;會話識別;站點首頁;導航頁

    Web日志挖掘現(xiàn)已成為Web挖掘研究的重點。其主要分為數(shù)據(jù)預處理、模式發(fā)現(xiàn)、模式分析3個階段[1]。數(shù)據(jù)預處理階段是要把從各種數(shù)據(jù)源得到的使用信息、內(nèi)容信息和結(jié)構(gòu)信息轉(zhuǎn)換成模式發(fā)現(xiàn)階段需要的數(shù)據(jù)抽象;模式發(fā)現(xiàn)階段旨在使用各種數(shù)據(jù)挖掘技術(shù)發(fā)掘隱藏在數(shù)據(jù)背后的規(guī)律和模式;模式分析階段旨在根據(jù)具體的實際應用,過濾掉在模式發(fā)現(xiàn)階段沒有用的規(guī)則或模式,并把有用的規(guī)則和模式轉(zhuǎn)換為知識。
    本文主要研究數(shù)據(jù)預處理階段的會話識別。在分析現(xiàn)有的會話識別方法基礎(chǔ)上,提出一種基于訪問站點首頁和導航頁的改進會話識別方法,最后通過實驗驗證了改進的會話識別方法比現(xiàn)有方法更有效。
1 數(shù)據(jù)預處理
    數(shù)據(jù)預處理是Web日志中最基礎(chǔ)、最頻繁的工作,是整個數(shù)據(jù)準備的核心工作。數(shù)據(jù)預處理的結(jié)果將直接影響到挖掘算法產(chǎn)生的規(guī)則和模式,因此預處理過程在整個Web日志挖掘過程中占據(jù)著非常重要的地位,是挖掘質(zhì)量的保證。
    數(shù)據(jù)預處理包括數(shù)據(jù)清理、用戶識別、會話識別、路徑補充和事務(wù)識別5個階段[2]。(1)數(shù)據(jù)清理是指刪除Web日志中與挖掘算法無關(guān)的數(shù)據(jù);(2)用戶識別是識別出訪問網(wǎng)站的每個用戶;(3)會話識別是在用戶識別之后,把每個用戶在一段時間內(nèi)的訪問序列進行分解,從而得到相應的會話。會話是指同一用戶在一次瀏覽過程中連續(xù)請求的頁面序列,它代表了用戶對服務(wù)器的一次有效訪問;(4)路徑補充是對識別出的用戶會話進行優(yōu)化的步驟,以使得其更加準確地描述用戶的瀏覽請求;(5)事務(wù)識別是將用戶會話進行語義分組,形成適合挖掘需要的事務(wù)。
2 會話識別分析
    用戶會話[3]是指用戶從進入站點到離開站點期間所訪問的一系列頁面序列集合。可表示為:
  
    其中SessionID是會話標識,{(Pid1,t1)…(Pidk,tk)…(Pidn,tn)}是此次用戶會話的頁面訪問序列,Pid是訪問頁面的標識,t是訪問該頁面的時間。(Pid1,t1)表示用戶此次會話訪問的第一個頁面和時間,(Pidn,tn)表示用戶此次會話訪問的最后一個頁面和時間。
2.1 常用會話識別方法
    目前常用會話識別方法主要有兩大類:一類是基于時間閾值,另一類是基于用戶訪問頁面時的參引頁面。基于時間閾值的會話識別方法又可細分為以下3類:
    (1)設(shè)定會話的持續(xù)時間閾值θ。即一個會話總的持續(xù)時間不超過θ。國外學者Catledge和Pitkow由實驗得出θ設(shè)為25.5 min較好[4],許多商業(yè)產(chǎn)品都采用30 min作為缺省值。
    (2)設(shè)定頁面的訪問時間閾值η[5]。假設(shè)(Pidi,ti)、(Pidi+1,ti+1)為一個用戶訪問序列中的兩條相鄰訪問記錄。只有當ti+1-ti≤η時,才認為這兩條記錄屬于同一個會話。當ti+1-ti>η時,(Pidi,ti)是上一次會話的最后一條訪問記錄,而(Pidi+1,ti+1)是新會話的第一條訪問記錄。一般η取10 min。
    (3)上述方法(2)是對所有頁面設(shè)定同一個頁面訪問時間閾值,并沒有因頁面的不同而不同。參考文獻[6]中,根據(jù)統(tǒng)計的頁面的訪問時間,在正態(tài)分布的假設(shè)下為每個頁面設(shè)定一個訪問時間作為切分會話閾值,并結(jié)合頁面內(nèi)容及站點結(jié)構(gòu)來確定頁面重要程度,對該閾值進行調(diào)整。這是一種個性化的時間閾值設(shè)置方法。
   
2.2 常用會話識別方法評估
    第(1)、(2)兩種方法使用單一時間閾值來識別用戶會話顯然是不合理的。方法(1)不能識別出訪問時間大于30 min的會話,且識別不出兩個連續(xù)較短的會話;方法(2)的不足在于,若一個用戶在訪問站點期間暫時離開電腦,但并沒有退出站點,過10 min后回來繼續(xù)瀏覽該站點,這實際上屬于同一個會話,而方法(2)則會錯誤地認為用戶開始了一個新的會話;方法(3)使用的統(tǒng)計學方法雖然大大減小了上限閾值,但仍然無法準確描述對頁面感興趣的用戶閱讀網(wǎng)頁的平均時間,無法區(qū)分超短時間用戶訪問記錄。
    基于參引頁面的會話識別方法引入了時間限制?駐,主要是考慮到下面這種情況:訪問頁面的引用頁面為空,用戶可能是通過點擊瀏覽器上的”BACK”按鈕,回溯到之前某個曾經(jīng)瀏覽過的頁面,進而訪問到該頁。這顯然也是不合理的,用戶從p頁面回退到上級頁面后,用戶要在此頁面搜尋到感興趣的p頁面,并點擊鏈接進入該頁面,所需時間一般不止10 s,且用戶可能是回退多次后再點擊鏈接進入p頁面。因此,此處設(shè)置這個時間閾值并不合理。
3 改進的會話識別方法
3.1 會話劃分思考

    要準確地識別出用戶會話,關(guān)鍵在于識別出兩次相鄰會話的分割點。即上一次會話結(jié)束時訪問的頁面及下一次會話開始時訪問的頁面。而找出新會話開始時訪問的頁面,也就意味著上一會話的結(jié)束。因此,研究重點放在尋找標記新會話開始的訪問頁面。
    用戶開始訪問某一站點,一般是通過在瀏覽器的地址欄中輸入站點的URL或是通過點擊收藏欄中的收藏,通過站點的首頁進入此站點的,此時用戶也就開始了自己的一次會話。在Web服務(wù)器日志中,可以查看用戶訪問的URL是否是首頁來判斷用戶的這種行為。當用戶瀏覽完畢退出該站點,此時會話結(jié)束,而在Web服務(wù)器端日志中,無法判斷這種用戶行為。但當該用戶下一次通過首頁來訪問站點時,在Web日志中發(fā)現(xiàn)用戶又鍵入了首頁URL,則很顯然上一次會話在本條記錄之前結(jié)束,本條記錄標志用戶開始了一個新的會話。
3.2 改進的會話識別方法
    上述思想以訪問站點的首頁作為新會話開始的標記,基于這一前提用戶開始訪問站點時總是由站點首頁進入站點。但真實的訪問情況并不是所有的用戶每次開始訪問站點時都由首頁進入。一般的站點分若干版塊,而每一版塊都有自己的導航頁。如一門戶網(wǎng)站有新聞、體育、娛樂各版塊,有的用戶只對體育感興趣,那么他可能就會將體育版塊的導航頁做為收藏,每次訪問站點時,點擊收藏,直接進入體育導航頁開始訪問,而非先通過站點首頁,再進入體育版塊導航頁。因此,識別用戶會話,不能只以站點首頁作為開始標記,還應考慮各導航頁,因為很多用戶是直接通過導航頁訪問自己感興趣的頁面而非站點首頁。
    改進的會話識別方法如圖1所示,以站點首頁或?qū)Ш巾撟鳛樾聲掗_始的標識。

    改進的會話識別方法具體描述如下:
    (1)首先用戶訪問序列中的第一條訪問記錄是第一個會話的開始序列,置入第一個會話中;
    (2)讀取用戶訪問序列中的下一條訪問記錄,直至序列中所有記錄都處理完畢;
    (3)判斷本次訪問的頁面是否是站點的首頁,若是首頁,則當前會話結(jié)束,新會話開始,將該次訪問置入新會話的訪問序列中,然后轉(zhuǎn)步驟(2)處理下一條訪問記錄。否則,轉(zhuǎn)步驟(4);
    (4)判斷本次訪問的頁面是否是站點的導航頁之一,若不是(即該頁面為內(nèi)容頁),則將本次訪問置入當前會話的訪問序列中,然后轉(zhuǎn)步驟(2)繼續(xù)處理下一條訪問記錄。否則(即該頁面是導航頁之一),轉(zhuǎn)步驟(5)判斷它的上一條訪問記錄;
    (5)判斷上一條訪問記錄,若上一條訪問記錄訪問的頁面是首頁,則本次訪問記錄和上次訪問記錄同屬一個會話;若上一條訪問記錄訪問的頁面不是首頁,則本次訪問就標識了新會話的開始,將其置入新會話的訪問序列中。轉(zhuǎn)步驟(2),處理下一條訪問記錄。
4 實驗與結(jié)果分析
4.1 實驗過程
4.1.1 數(shù)據(jù)準備

    選用了安研星空站點http://www.ahusky.cn/從2009年2月17日至2009年3月5日的Web服務(wù)器日志,共計1 251 331條記錄,作為實驗數(shù)據(jù),如圖2所示。

4.1.2 會話識別
    將這些Web訪問日志通過SQL Loader載入Oracle數(shù)據(jù)庫中,經(jīng)過數(shù)據(jù)清理,共有有效訪問記錄35 273條,存放在表log中,如圖3所示。

    此處,以Web訪問日志中的IP地址作為用戶標識,利用Oracle PL/SQL編程實現(xiàn)上述改進的會話識別算法。為了與其他的會話識別方法進行比較,分別用2.1節(jié)中的方法(1)和方法(2)對同樣的Web日志進行會話識別,其中方法(1)取時間閾值30 min,方法(2)取時間閾值10 min。實驗結(jié)果如表1所示。

4.2 實驗分析
    通過實驗發(fā)現(xiàn),改進的會話識別方法識別出的會話數(shù)(11 325條)要遠多于方法(1)(5 073條)和方法(2)(5 226條)。另外,為了比較這三種會話識別方法識別會話的準確率,將三種方法中識別出的關(guān)于用戶220.178.4.195的會話分別與原始的Web日志記錄比較,發(fā)現(xiàn)改進的會話識別方法識別會話的準確率(82.19%)也要高于方法(1)(62.47%)和方法(2)(64.85%)。由此可見,改進的會話識別方法能夠識別出更多的會話,且識別會話的準確率也更高。
    數(shù)據(jù)預處理階段的會話識別為模式分析階段提供了挖掘數(shù)據(jù),即每一個有效的用戶會話,因此它直接影響到模式分析階段能否發(fā)現(xiàn)有效的模式。本文提出的基于站點首頁和導航頁的改進會話識別方法能識別出更多的會話,識別會話的準確率更高。
參考文獻
[1] SRIVASTAVA J, COOLEY R. Web usage mining: Discovery and applications of usage patterns from Web data[C]. SIGKDD Explorations, 2000.
[2] COOLEY R, MOBASHER B, SRIVASTAVA J. Data preparation for mining world wide web browsing patterns[J]. Knowledge and Information Systems, 1999,1(1):5-32.
[3] FACCA F M, LANZI P L. Mining interesting knowledge from Weblogs: a Survey[J]. Data and Knowledge Engineering, 2005,53(3):225-241.
[4] CATLEDGE L, PITKOW J. Characterizing browsing strategies in the world wide Web[J]. Computer Networks and ISDN Systems, 1995,27(6):1065-1073.
[5] SPILIOPOULOU M, MOBASHER B, BERENDT B, et al. A framework for the evaluation of session reconstruction heuristics in Web usage analysis[J]. Informs Journal of Computing, 2003,15(2):171-179.
[6] 嚴奉華,劉建平,楊凡丁.改進的Web訪問日志會話識別算法[J].計算機工程與設(shè)計.2008,29(22):5685-5687.
[7] 熊忠陽,周亞峰.Web訪問挖掘的預處理技術(shù)的研究[J].計算機技術(shù)與發(fā)展2007,17(8):14-18.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美午夜在线观看| 国产色视频一区| 亚洲欧美日韩国产另类专区| 亚洲国产综合在线看不卡| 香蕉久久夜色| 亚洲一区二区三区在线观看视频| 亚洲日本免费| 亚洲激情婷婷| 亚洲国产精品久久久久秋霞蜜臀 | 一二三区精品| 亚洲毛片播放| 亚洲久久视频| 日韩一级黄色大片| 一区二区三区四区国产| 99在线精品视频| 日韩午夜中文字幕| 一区二区三区国产精华| 99亚洲伊人久久精品影院红桃| 亚洲欧洲久久| 亚洲免费电影在线观看| 日韩视频在线观看| 99精品福利视频| 一区二区三区四区蜜桃| 亚洲深夜福利网站| 亚洲女女女同性video| 午夜精品久久久久久久99樱桃 | 亚洲字幕一区二区| 亚洲欧美在线另类| 欧美一区二区视频免费观看 | 欧美一级在线视频| 久久精品72免费观看| 久久久久久久97| 蜜桃久久精品一区二区| 欧美激情一区二区三区四区| 欧美日本免费| 国产精品福利影院| 国产精品一区二区三区乱码| 国产亚洲精品v| 一区二区在线观看av| 91久久精品美女| 一本大道久久精品懂色aⅴ| 亚洲在线第一页| 欧美影院久久久| 亚洲丁香婷深爱综合| 日韩视频久久| 亚洲欧美中文另类| 久久久欧美一区二区| 欧美黄色一区二区| 国产精品久久久久久久久久免费看 | 国产日韩精品在线观看| 狠狠色丁香婷婷综合影院| 1769国产精品| 一区二区三区免费在线观看| 亚洲欧美日韩综合一区| 亚洲国产cao| 在线亚洲电影| 久久精品国产欧美亚洲人人爽| 麻豆精品网站| 国产精品久久久亚洲一区 | 欧美尤物一区| 一本色道久久综合亚洲精品小说 | 亚洲国产欧美精品| 亚洲一级黄色av| 亚洲电影成人| 亚洲视频久久| 久久久久久亚洲精品不卡4k岛国| 欧美剧在线免费观看网站| 国产精品久久久久久亚洲毛片| 国产视频在线观看一区二区三区 | 午夜亚洲影视| 欧美成黄导航| 国产无一区二区| 亚洲精品乱码视频| 性欧美办公室18xxxxhd| 亚洲免费成人av| 久久九九精品| 欧美三级乱码| 1024成人网色www| 午夜精品成人在线| 一区二区三区**美女毛片| 久久精品导航| 欧美视频精品在线观看| 精品动漫3d一区二区三区免费| 一区二区三区|亚洲午夜| 亚洲国产精品v| 欧美一级精品大片| 欧美日韩国产电影| 伊人久久久大香线蕉综合直播| 亚洲永久精品国产| 亚洲网站在线看| 欧美成人免费网| 国内精品视频一区| 亚洲一区二区精品在线观看| 亚洲免费观看高清在线观看| 久久精品二区三区| 国产精品久久看| 日韩香蕉视频| 亚洲三级电影全部在线观看高清| 久久精品一本| 国产精品一区在线观看你懂的| 亚洲美洲欧洲综合国产一区| 亚洲国产影院| 久久久精品久久久久| 国产精品久久久久久一区二区三区| 亚洲黄色尤物视频| 亚洲国产人成综合网站| 久久久久久久久蜜桃| 国产日韩欧美在线播放不卡| 亚洲一区二区三区在线播放| 制服丝袜激情欧洲亚洲| 欧美激情a∨在线视频播放| 亚洲成人自拍视频| 亚洲第一天堂av| 久久亚洲国产精品日日av夜夜| 国产欧美精品在线播放| 亚洲午夜久久久久久尤物| 亚洲素人在线| 欧美日韩精品免费看 | 亚洲免费观看在线观看| 欧美成人精精品一区二区频| 激情一区二区三区| 久久精品国产亚洲aⅴ| 久久综合影视| 一区二区三区在线免费播放| 久久国产主播精品| 久久三级视频| 在线观看成人一级片| 亚洲福利视频二区| 快she精品国产999| 一区免费观看| 亚洲乱码国产乱码精品精天堂 | 欧美日韩久久久久久| 亚洲免费久久| 国产精品99久久久久久宅男| 欧美视频精品一区| 亚洲在线成人| 久久精品日韩欧美| 在线精品在线| 亚洲精品资源| 欧美三区在线观看| 亚洲欧美日韩区| 久久九九99| 亚洲高清在线视频| 一本大道久久a久久精品综合| 欧美日韩一区二区三区在线看| 亚洲最新视频在线| 性欧美办公室18xxxxhd| 国产亚洲欧美在线| 亚洲第一页在线| 欧美激情在线观看| 一区二区三区欧美日韩| 亚洲欧美视频在线观看视频| 国产三级精品在线不卡| 亚洲国产片色| 欧美日韩免费一区二区三区| 亚洲无亚洲人成网站77777| 久久精品99国产精品酒店日本| 尤物yw午夜国产精品视频| 亚洲巨乳在线| 国产精品不卡在线| 欧美一区二区三区男人的天堂| 麻豆国产精品va在线观看不卡| 亚洲精品小视频| 欧美一区成人| 尤物九九久久国产精品的特点| 一区二区三区国产精华| 国产麻豆综合| 亚洲国产福利在线| 欧美日韩国产影片| 亚洲欧美日韩国产中文在线| 免费视频最近日韩| 夜夜夜久久久| 久久免费视频网| 亚洲精品资源| 久久久久综合网| 99热这里只有成人精品国产| 久久www成人_看片免费不卡| 亚洲高清自拍| 亚洲欧美中文另类| 亚洲国产成人不卡| 欧美一区二区久久久| 亚洲风情亚aⅴ在线发布| 亚洲男人av电影| 1769国内精品视频在线播放| 亚洲欧美日韩国产综合| 在线观看亚洲精品视频| 亚洲欧美日韩专区| 亚洲成人在线免费| 欧美亚洲尤物久久| 亚洲三级色网| 久久久久久久999精品视频| 一本久久精品一区二区| 毛片一区二区三区| 亚洲一区免费观看| 欧美激情1区2区3区| 欧美亚洲日本一区| 欧美午夜精品伦理| 亚洲人精品午夜在线观看| 国产伦精品一区二区三区高清| 亚洲伦理中文字幕|