《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 一種自適應(yīng)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法
一種自適應(yīng)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法
2020年電子技術(shù)應(yīng)用第12期
淮曉永,韓曉東,高若辰,高煥新
華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083
摘要: 面向互聯(lián)網(wǎng)信息采集挖掘應(yīng)用,針對(duì)傳統(tǒng)的網(wǎng)站信息整頁(yè)采集方式存在采集信息混雜、無(wú)法直接使用,而人工結(jié)構(gòu)化采集方式成本高、工作效率低的問(wèn)題,研究提出了一種自適應(yīng)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法,實(shí)現(xiàn)了網(wǎng)頁(yè)分類(lèi)算法、基于子樹(shù)的標(biāo)題項(xiàng)、內(nèi)容項(xiàng)的結(jié)構(gòu)化信息提取算法。基于典型網(wǎng)站網(wǎng)頁(yè)分類(lèi)標(biāo)注數(shù)據(jù)集進(jìn)行分類(lèi)模型的學(xué)習(xí)建模,可以自適應(yīng)不同網(wǎng)站的差異,對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi),按照網(wǎng)頁(yè)分類(lèi)分別提取出網(wǎng)頁(yè)中的列表項(xiàng)結(jié)構(gòu)化信息、內(nèi)容項(xiàng)結(jié)構(gòu)化信息。該技術(shù)對(duì)提高網(wǎng)站信息結(jié)構(gòu)化采集處理的自動(dòng)化水平及處理效率具有重要作用。
中圖分類(lèi)號(hào): TN919.5;TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.200160
中文引用格式: 淮曉永,韓曉東,高若辰,等. 一種自適應(yīng)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法[J].電子技術(shù)應(yīng)用,2020,46(12):97-102.
英文引用格式: Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al. An adaptive method for extracting structured information from web pages[J]. Application of Electronic Technique,2020,46(12):97-102.
An adaptive method for extracting structured information from web pages
Huai Xiaoyong,Han Xiaodong,Gao Ruochen,Gao Huanxin
National Computer System Engineering Research Institute of China,Beijing 100083,China
Abstract: In order to meet the needs of Internet information collection and mining, aiming at the problems of traditional web site information collection methods, such as mixed collection information, unable to be used directly, and the high cost and low efficiency of manual structured collection method, this paper proposes an adaptive method for extracting structured information from web pages. We implement web page classification algorithm, subtree based title item and content item structured information extraction algorithm. Based on the classification annotated dataset of typical website pages, the classification model can adapt to the differences of various web sites, classify the web pages, and extract the list structured information and content structured information in the web pages according to the web page classification. This technology plays an important role in improving the automation level and processing efficiency of website structured information collection and processing.
Key words : information extraction;structured information;classification model;adaptive

0 引言

    在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長(zhǎng),其中蘊(yùn)藏著很多有價(jià)值的重要信息需要處理與利用。通過(guò)智能化的大數(shù)據(jù)信息挖掘處理,可以從中分析把握技術(shù)發(fā)展的方向態(tài)勢(shì),迅速發(fā)現(xiàn)高價(jià)值的科技信息。

    從關(guān)注的Internet網(wǎng)站源自動(dòng)采集收集新發(fā)布的信息,并提取出其中的結(jié)構(gòu)化信息,是建立互聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)的基礎(chǔ)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)可以從各類(lèi)網(wǎng)站爬取大量的網(wǎng)頁(yè)數(shù)據(jù),但傳統(tǒng)的網(wǎng)站信息整頁(yè)采集方式信息混雜,無(wú)法直接進(jìn)行大數(shù)據(jù)挖掘處理,而人工從網(wǎng)頁(yè)中提取結(jié)構(gòu)化的文本信息又存在成本高、工作效率低的問(wèn)題。如何通過(guò)自動(dòng)化的網(wǎng)頁(yè)數(shù)據(jù)結(jié)構(gòu)化信息采集技術(shù)實(shí)現(xiàn)自動(dòng)從網(wǎng)頁(yè)中提取結(jié)構(gòu)化的信息,是進(jìn)行互聯(lián)網(wǎng)大數(shù)據(jù)挖掘處理的關(guān)鍵預(yù)處理技術(shù)。

    本文研究針對(duì)傳統(tǒng)的網(wǎng)站信息整頁(yè)采集方式存在采集信息混雜、無(wú)法直接使用,而人工結(jié)構(gòu)化采集方式成本高、工作效率低的問(wèn)題,研究實(shí)現(xiàn)了一種基于DOM樹(shù)的網(wǎng)頁(yè)結(jié)構(gòu)化信息提取方法(DOM based Web-page Structured Information Extraction,DWSIE),實(shí)現(xiàn)了一個(gè)網(wǎng)頁(yè)結(jié)構(gòu)化信息提取服務(wù)工具包,該工具包極大地提高了網(wǎng)站結(jié)構(gòu)化信息采集處理的自動(dòng)化水平和處理效率。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.jysgc.com/resource/share/2000003263




作者信息:

淮曉永,韓曉東,高若辰,高煥新

(華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 潦草影视2021手机| 香蕉人人超人人超碰超国产| 女王厕便器vk| 久久4k岛国高清一区二区| 最近免费中文字幕大全高清大全1| 人人添人人澡人人澡人人人爽| 美女扒开大腿让男人桶| 国产午夜三级一区二区三| 男女抽搐动态图| 国产高清不卡一区二区| chinese熟妇与小伙子mature| 怡红院老首页主页入口| 久久一区二区三区免费播放| 日韩福利在线视频| 亚洲乱码一二三四五六区| 欧美高清免费一级在线| 人人澡人人澡人人看添av| 精品乱码一区二区三区在线| 国产一区二区三区在线| 韩国三级大全久久网站| 国产成人精品无码一区二区| jizz之18| 国产精品天堂avav在线| 521a成v视频网站在线入口| 在线a毛片免费视频观看| a级毛片免费观看网站| 妲己丰满人熟妇大尺度人体艺| 中国欧美日韩一区二区三区| 无翼乌全彩无漫画大全| 久久亚洲欧美日本精品| 日韩乱码中文字幕视频| 久草福利资源在线观看| 极品国产人妖chinesets| 亚洲午夜一区二区电影院| 18精品久久久无码午夜福利| 在线观看国产成人AV片| fulidown国产精品合集| 女人脱裤子让男生桶的免费视频| 一区二区三区视频| 孩交精品xxxx视频视频| 一区二区三区四区国产|