《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 一種自適應網頁結構化信息提取方法
一種自適應網頁結構化信息提取方法
2020年電子技術應用第12期
淮曉永,韓曉東,高若辰,高煥新
華北計算機系統工程研究所,北京100083
摘要: 面向互聯網信息采集挖掘應用,針對傳統的網站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結構化采集方式成本高、工作效率低的問題,研究提出了一種自適應網頁結構化信息提取方法,實現了網頁分類算法、基于子樹的標題項、內容項的結構化信息提取算法。基于典型網站網頁分類標注數據集進行分類模型的學習建模,可以自適應不同網站的差異,對網頁進行分類,按照網頁分類分別提取出網頁中的列表項結構化信息、內容項結構化信息。該技術對提高網站信息結構化采集處理的自動化水平及處理效率具有重要作用。
中圖分類號: TN919.5;TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.200160
中文引用格式: 淮曉永,韓曉東,高若辰,等. 一種自適應網頁結構化信息提取方法[J].電子技術應用,2020,46(12):97-102.
英文引用格式: Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al. An adaptive method for extracting structured information from web pages[J]. Application of Electronic Technique,2020,46(12):97-102.
An adaptive method for extracting structured information from web pages
Huai Xiaoyong,Han Xiaodong,Gao Ruochen,Gao Huanxin
National Computer System Engineering Research Institute of China,Beijing 100083,China
Abstract: In order to meet the needs of Internet information collection and mining, aiming at the problems of traditional web site information collection methods, such as mixed collection information, unable to be used directly, and the high cost and low efficiency of manual structured collection method, this paper proposes an adaptive method for extracting structured information from web pages. We implement web page classification algorithm, subtree based title item and content item structured information extraction algorithm. Based on the classification annotated dataset of typical website pages, the classification model can adapt to the differences of various web sites, classify the web pages, and extract the list structured information and content structured information in the web pages according to the web page classification. This technology plays an important role in improving the automation level and processing efficiency of website structured information collection and processing.
Key words : information extraction;structured information;classification model;adaptive

0 引言

    在互聯網大數據時代,互聯網信息呈現爆炸式增長,其中蘊藏著很多有價值的重要信息需要處理與利用。通過智能化的大數據信息挖掘處理,可以從中分析把握技術發展的方向態勢,迅速發現高價值的科技信息。

    從關注的Internet網站源自動采集收集新發布的信息,并提取出其中的結構化信息,是建立互聯網大數據系統的基礎。通過網絡爬蟲系統可以從各類網站爬取大量的網頁數據,但傳統的網站信息整頁采集方式信息混雜,無法直接進行大數據挖掘處理,而人工從網頁中提取結構化的文本信息又存在成本高、工作效率低的問題。如何通過自動化的網頁數據結構化信息采集技術實現自動從網頁中提取結構化的信息,是進行互聯網大數據挖掘處理的關鍵預處理技術。

    本文研究針對傳統的網站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結構化采集方式成本高、工作效率低的問題,研究實現了一種基于DOM樹的網頁結構化信息提取方法(DOM based Web-page Structured Information Extraction,DWSIE),實現了一個網頁結構化信息提取服務工具包,該工具包極大地提高了網站結構化信息采集處理的自動化水平和處理效率。




本文詳細內容請下載:http://m.jysgc.com/resource/share/2000003263




作者信息:

淮曉永,韓曉東,高若辰,高煥新

(華北計算機系統工程研究所,北京100083)

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美日本免费一区二区三区| 国产毛片精品国产一区二区三区| 午夜在线电影亚洲一区| 日韩一级网站| 亚洲精品视频在线观看免费| 亚洲第一精品影视| 欧美诱惑福利视频| 亚洲欧美日韩成人| 亚洲一区二区三区三| 一区二区三区精品| 一区二区三区视频在线| 亚洲免费观看| 一区二区免费在线视频| 中日韩男男gay无套| 亚洲视频免费| 亚洲尤物在线视频观看| 亚洲一级片在线观看| 亚洲一品av免费观看| 亚洲香蕉视频| 亚洲一区一卡| 欧美一区二区高清| 欧美在线视频一区二区三区| 久久精品国亚洲| 亚洲韩国青草视频| 日韩视频在线观看| 中文在线资源观看网站视频免费不卡 | 亚洲精品日韩久久| 亚洲美女视频网| 一区二区毛片| 亚洲在线中文字幕| 午夜精品久久久久久| 欧美在线播放视频| 亚洲三级视频在线观看| 亚洲最新视频在线| 亚洲欧美激情视频| 久久国产手机看片| 欧美福利电影在线观看| 欧美激情一区二区三区成人| 欧美日韩一级视频| 国产欧美日韩激情| 伊人影院久久| 99精品热视频| 羞羞色国产精品| 亚洲精品乱码久久久久| 亚洲视频狠狠| 久久成人资源| 欧美国产日韩xxxxx| 国产精品久久99| 狠狠久久综合婷婷不卡| 99av国产精品欲麻豆| 欧美一级久久久久久久大片| 亚洲第一福利在线观看| 夜夜爽www精品| 久久精品人人| 欧美日韩国产黄| 国产日韩欧美二区| 最新国产成人在线观看| 亚洲欧美国产毛片在线| 亚洲国产精品第一区二区三区| 一道本一区二区| 欧美与欧洲交xxxx免费观看| 噜噜噜躁狠狠躁狠狠精品视频 | 亚洲色图在线视频| 久久久久久一区二区三区| 欧美精选一区| 国产在线不卡精品| 99国产精品久久久久久久| 欧美主播一区二区三区| 中文国产成人精品久久一| 久久婷婷人人澡人人喊人人爽| 欧美日韩亚洲一区二区三区四区| 国内精品**久久毛片app| 一本综合久久| 亚洲国产一区二区三区高清| 亚洲欧美日韩在线不卡| 欧美99在线视频观看| 国产精品一区二区女厕厕| 亚洲黄色免费电影| 欧美中文字幕不卡| 亚洲在线观看免费视频| 欧美成人精品h版在线观看| 国产精品男女猛烈高潮激情| 亚洲第一免费播放区| 亚洲欧美美女| 中国av一区| 欧美成人午夜激情视频| 国产三级欧美三级| 在线亚洲欧美专区二区| 亚洲精品欧美| 理论片一区二区在线| 国产日韩精品久久久| 在线天堂一区av电影| 亚洲免费观看高清完整版在线观看| 久久久精品五月天| 国产精品第一区| 日韩一区二区福利| 亚洲免费观看高清在线观看 | 国产精品区一区二区三区| 亚洲精品国产精品国产自| 久久精品一区二区三区中文字幕| 亚洲欧美电影在线观看| 欧美日韩成人在线| 亚洲狠狠丁香婷婷综合久久久| 久久黄金**| 久久精品在线观看| 国产欧美精品一区| 亚洲一区美女视频在线观看免费| 一本一本a久久| 欧美精品一区三区| 亚洲国产裸拍裸体视频在线观看乱了| 欧美在线中文字幕| 久久精品成人一区二区三区| 国产乱人伦精品一区二区| 亚洲一区二区在线看| 亚洲自拍偷拍麻豆| 欧美小视频在线观看| 在线视频你懂得一区| 亚洲午夜三级在线| 欧美午夜精品一区二区三区| 日韩视频二区| 中文一区二区| 欧美无砖砖区免费| aa级大片欧美三级| 中文在线资源观看视频网站免费不卡| 欧美日本韩国| 99精品欧美一区二区三区综合在线| 夜夜精品视频一区二区| 欧美日韩亚洲激情| 一区二区三区久久精品| 亚洲男人的天堂在线| 国产精品麻豆欧美日韩ww| 亚洲一区www| 久久精品99国产精品酒店日本| 国产网站欧美日韩免费精品在线观看| 亚洲欧美成人| 久久久天天操| 在线国产欧美| 99精品免费| 国产精品久久97| 午夜视频一区| 玖玖国产精品视频| 亚洲国产欧美国产综合一区| 一区二区三区你懂的| 欧美亚男人的天堂| 欧美一二区视频| 久久综合精品国产一区二区三区| 亚洲二区免费| 亚洲视频在线观看三级| 国产精品久久久久高潮| 午夜视频在线观看一区| 美女网站久久| 日韩视频免费| 欧美在线关看| 在线观看日韩av电影| 一级日韩一区在线观看| 国产精品一区二区黑丝| 性欧美videos另类喷潮| 你懂的国产精品| 一区二区三区日韩| 欧美自拍偷拍午夜视频| 亚洲国产精品一区在线观看不卡| 亚洲一级二级| 国产真实久久| 一本一本a久久| 国产欧美日韩免费| 亚洲欧洲精品一区二区三区| 欧美日本韩国| 亚洲欧美在线看| 欧美福利电影网| 亚洲视频在线观看网站| 久久精品主播| 亚洲精品在线三区| 欧美一区二区成人6969| 在线免费不卡视频| 亚洲欧美日韩国产| 亚洲电影免费观看高清完整版在线| 亚洲一区二区在线免费观看| 激情六月综合| 亚洲永久在线| 尤物网精品视频| 亚洲欧美变态国产另类| 狠狠色2019综合网| 亚洲图片欧美一区| 一区二区三区在线视频播放| 亚洲色图在线视频| 一区二区三区在线不卡| 亚洲欧美国产77777| 亚洲国产精品福利| 欧美在线你懂的| 亚洲精品护士| 久久综合中文字幕| 亚洲综合日韩中文字幕v在线| 欧美久久久久久蜜桃| 欧美呦呦网站| 欧美日韩综合精品| 亚洲第一精品夜夜躁人人爽 | 亚洲人成人一区二区在线观看| 国产精品天天看| 一本一本久久a久久精品牛牛影视| 国产在线成人|