《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計(jì)應(yīng)用 > 一種基于成詞率和譜聚類的電力文本領(lǐng)域詞發(fā)現(xiàn)方法
一種基于成詞率和譜聚類的電力文本領(lǐng)域詞發(fā)現(xiàn)方法
2021年電子技術(shù)應(yīng)用第10期
楊 政1,尹春林1,蔡 迪2,李慧斌2
1.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,云南 昆明650217;2.西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 西安710049
摘要: 考慮到當(dāng)前電力行業(yè)仍缺少有效的領(lǐng)域詞發(fā)現(xiàn)方法,以電力行業(yè)科技項(xiàng)目文本為原始語料庫,將基于互信息與左右熵的統(tǒng)計(jì)特征與傳統(tǒng)語言構(gòu)詞規(guī)則特征相融合,提出了電力文本成詞率的概念。所提方法首先利用成詞率對(duì)電力文本進(jìn)行無監(jiān)督篩選得到初始候選詞集,然后對(duì)候選詞集進(jìn)行文本切片算法和常用詞過濾操作,最后進(jìn)行詞嵌入和譜聚類得到最終所需的電力文本領(lǐng)域詞。實(shí)驗(yàn)結(jié)果表明,所提出的方法準(zhǔn)確有效,為電力文本的領(lǐng)域詞發(fā)現(xiàn)提供了一種新方法。
中圖分類號(hào): TP311
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.211437
中文引用格式: 楊政,尹春林,蔡迪,等. 一種基于成詞率和譜聚類的電力文本領(lǐng)域詞發(fā)現(xiàn)方法[J].電子技術(shù)應(yīng)用,2021,47(10):29-32,37.
英文引用格式: Yang Zheng,Yin Chunlin,Cai Di,et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique,2021,47(10):29-32,37.
A power text domain word discovery method based on word formation rate and spectral clustering
Yang Zheng1,Yin Chunlin1,Cai Di2,Li Huibin2
1.Electric Power Research Institute of Yunnan Power Grid Co.,Ltd.,Kunming 650217,China; 2.School of Mathematics and Statistics,Xi′an Jiaotong University,Xi′an 710049,China
Abstract: Considering that the current power industry still lacks effective domain word discovery methods, this paper takes the power industry science and technology project text as the original corpus, combines the statistical features based on the mutual information, left entropy as well as right entropy with the features of traditional language word-formation rules, and proposes the new concept of power text word formation rate. The proposed method firstly uses the word formation rate to get the initial candidate word set by unsupervised filtering, and then performs the text slicing algorithm and common word filtering operation on the candidate word set, and finally performs the word embedding and spectral clustering algorithms to get the final power text-domain words. Experimental results show that the method proposed in this paper is accurate and effective, and provides a new method for power text domain word discovery.
Key words : word formation rate;spectral clustering;domain word discovery;power text

0 引言

    針對(duì)特定領(lǐng)域的文本數(shù)據(jù),領(lǐng)域詞的詞庫構(gòu)建是最為關(guān)鍵的任務(wù)之一。傳統(tǒng)領(lǐng)域詞發(fā)現(xiàn)方法依賴互信息或鄰接熵得到候選詞集,進(jìn)而利用word2vec進(jìn)行詞向量轉(zhuǎn)化、K-means進(jìn)行聚類[1],最終得到行業(yè)領(lǐng)域詞。傳統(tǒng)方法對(duì)詞語組合規(guī)律運(yùn)用得不夠全面,因此這類方法篩選的候選詞集存在諸多不合理的詞語。領(lǐng)域詞發(fā)現(xiàn)分為候選詞集篩選與字符串過濾兩個(gè)步驟。

    在候選詞集篩選方面,領(lǐng)域詞發(fā)現(xiàn)算法主要是基于詞語統(tǒng)計(jì)特性的無監(jiān)督方法或序列模式機(jī)器學(xué)習(xí)的有監(jiān)督算法。基于無監(jiān)督的方法中,互信息和凝固度是最常見的用來篩選詞語的度量,劉偉童等[2]提出使用互信息初步篩選詞集,隨后用鄰接熵對(duì)詞集進(jìn)行再過濾的方法。劉昱彤等[3]使用改進(jìn)的類Apriori算法,通過組合、統(tǒng)計(jì)頻率、過濾3個(gè)步驟來篩選候選詞集。杜麗萍等[4]提出利用改進(jìn)的互信息,同時(shí)結(jié)合一定的構(gòu)詞規(guī)則篩選候選詞集。無監(jiān)督算法泛化性優(yōu)良,但缺少規(guī)則,會(huì)遺留有較多垃圾串與非領(lǐng)域詞。基于監(jiān)督的機(jī)器學(xué)習(xí)詞集篩選方法有馬建紅等[5]提出的基于CNN和LSTM抽取詞特征,隨后使用半馬爾科夫條件隨機(jī)場(chǎng)(SCRF)來識(shí)別詞語邊界。Fu Guohong等[6]在隱馬爾可夫模型(HMM)的框架下運(yùn)用命名實(shí)體識(shí)別(NER)的思路,同時(shí)結(jié)合上下文篩選出候選詞集。陳飛等[7]提出運(yùn)用條件隨機(jī)場(chǎng)來判斷分詞的詞匯邊界是否為候選詞邊界的方法。監(jiān)督方法通常需要大量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,耗費(fèi)高額的人工成本。此外,部分方法選擇基于純規(guī)則的構(gòu)詞法[8-9](即漢語成詞規(guī)則)與一些領(lǐng)域先驗(yàn)知識(shí)結(jié)合,進(jìn)行候選詞集的篩選。這種方式雖然準(zhǔn)確性相對(duì)較高,但是規(guī)則維護(hù)復(fù)雜,基本無跨域能力。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.jysgc.com/resource/share/2000003777




作者信息:

楊  政1,尹春林1,蔡  迪2,李慧斌2

(1.云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,云南 昆明650217;2.西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西 西安710049)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲特级毛片| 欧美激情第一页xxx| 日韩亚洲欧美一区二区三区| 久久精品国产欧美激情| 亚洲一级一区| 中文有码久久| 中国成人黄色视屏| 日韩一区二区精品| 99成人精品| 亚洲毛片在线免费观看| 亚洲乱码国产乱码精品精天堂| 亚洲激情婷婷| 亚洲三级观看| 亚洲久久一区| 日韩午夜av| 亚洲婷婷综合久久一本伊一区| 国产精品99久久99久久久二8 | 久热爱精品视频线路一| 久热re这里精品视频在线6| 欧美1区2区视频| 欧美精品一区二区久久婷婷| 欧美日韩高清区| 国产精品成人av性教育| 国产精品亚洲аv天堂网| 国产日韩欧美亚洲| 一区二区三区在线观看视频| 亚洲韩国青草视频| 一区二区欧美日韩视频| 亚洲欧美国产日韩天堂区| 欧美一区永久视频免费观看| 亚洲电影第1页| 亚洲精品在线免费| 亚洲一区二区三区免费观看| 久久国产福利国产秒拍| 久久综合色一综合色88| 欧美连裤袜在线视频| 欧美亚洲不卡| 国产一区二区精品丝袜| 亚洲国产精品久久久久秋霞不卡 | 亚洲一区二区三区高清不卡| 香蕉久久夜色| 巨胸喷奶水www久久久免费动漫| 欧美激情视频网站| 国产精品盗摄一区二区三区| 国产亚洲精品激情久久| 国语自产精品视频在线看| 亚洲国产专区校园欧美| 亚洲午夜久久久| 欧美在线观看天堂一区二区三区| 亚洲啪啪91| 亚洲综合色婷婷| 久久久蜜桃一区二区人| 欧美日韩高清在线观看| 国产免费亚洲高清| 亚洲国产天堂久久综合网| 一区二区激情小说| 久久精品99久久香蕉国产色戒| 亚洲乱码一区二区| 欧美在线视频一区| 欧美精品三级日韩久久| 国产亚洲精品久久久久动| 亚洲精品网站在线播放gif| 午夜精品视频在线观看一区二区| 亚洲精品国产精品国产自| 欧美一区二区三区四区在线观看| 欧美电影免费观看| 国产麻豆午夜三级精品| 日韩视频免费在线| 久久精品一区二区三区四区| 亚洲深夜福利视频| 久久一区免费| 国产精品视频你懂的| 亚洲国产一二三| 欧美一区二区三区在线观看| 一区二区欧美在线| 另类综合日韩欧美亚洲| 国产欧美高清| 一区二区三区蜜桃网| 亚洲精品久久久久久久久久久| 性欧美大战久久久久久久免费观看| 欧美国产精品一区| 国产综合色一区二区三区| 这里只有精品电影| 99国产精品久久久久久久久久| 久久国产欧美精品| 国产精品久久久久77777| 最近看过的日韩成人| 欧美专区在线观看| 亚洲欧美日韩国产另类专区| 欧美精品一区二区三区在线看午夜| 国产午夜精品一区二区三区视频| 99精品久久| 亚洲最新在线| 欧美国产精品专区| 激情一区二区三区| 性亚洲最疯狂xxxx高清| 亚洲欧美色婷婷| 欧美小视频在线| 亚洲精品久久嫩草网站秘色| 亚洲第一精品夜夜躁人人爽| 欧美在线免费看| 国产精品无码专区在线观看| 一本一本a久久| 在线一区二区三区做爰视频网站| 欧美国产日韩一二三区| 亚洲成色www8888| 久久精品视频导航| 久久久久久成人| 国产一区在线看| 香蕉久久精品日日躁夜夜躁| 欧美诱惑福利视频| 国产精自产拍久久久久久| 亚洲一级特黄| 香港久久久电影| 国产精品一二一区| 亚洲影院在线观看| 性欧美1819sex性高清| 国产精品亚洲人在线观看| 亚洲一区不卡| 亚洲欧美日韩精品一区二区 | 先锋影音久久| 国产精品入口麻豆原神| 亚洲网站在线| 羞羞色国产精品| 国产欧美日韩亚州综合| 欧美一区二区黄色| 久久人人97超碰精品888| 影视先锋久久| 亚洲精品久久久久久一区二区 | 欧美日韩另类一区| 制服丝袜激情欧洲亚洲| 欧美一区二区啪啪| 国产一级揄自揄精品视频| 欧美在线一区二区| 女仆av观看一区| 亚洲精品一区二区三区99| 一区二区三区精品视频| 国产精品久久久对白| 亚洲欧美日韩一区二区| 久久视频国产精品免费视频在线| 亚洲高清三级视频| 亚洲桃色在线一区| 国产精品揄拍一区二区| 久久成人精品视频| 欧美夫妇交换俱乐部在线观看| 亚洲精品视频啊美女在线直播| 亚洲一区在线观看免费观看电影高清| 国产精品无码永久免费888| 欧美一级视频| 欧美久久久久久蜜桃| 亚洲视频狠狠| 久久天堂国产精品| 最新成人av网站| 亚洲欧洲av一区二区| 国内精品伊人久久久久av一坑| 亚洲日韩第九十九页| 欧美午夜精品理论片a级大开眼界 欧美午夜精品理论片a级按摩 | 亚洲精品乱码久久久久久蜜桃麻豆 | 欧美高清在线播放| 在线综合亚洲欧美在线视频| 久久久久久夜精品精品免费| 亚洲国产精品小视频| 亚洲欧美成人| 在线精品观看| 午夜精品福利视频| …久久精品99久久香蕉国产| 亚洲一区二区影院| 国产综合网站| 亚洲在线观看视频网站| 一区二区在线观看视频在线观看| 亚洲视频电影在线| 国产一区二区三区自拍| 亚洲视频免费在线| 在线播放日韩欧美| 午夜精品久久久久久久99水蜜桃 | 亚洲欧洲精品一区二区| 香蕉尹人综合在线观看| 91久久精品一区二区三区| 欧美一区二视频| 亚洲三级电影全部在线观看高清| 久久福利一区| 一区二区日韩| 欧美高清在线一区| 久久国产精品99精品国产| 欧美色视频在线| 亚洲激情网站免费观看| 国产啪精品视频| 亚洲先锋成人| 亚洲经典在线| 老司机精品导航| 香蕉免费一区二区三区在线观看| 欧美日韩精品免费观看视频| 久久国产综合精品| 国产精品亚洲片夜色在线| 一本色道久久88综合日韩精品| 国户精品久久久久久久久久久不卡 | 欧美一区2区视频在线观看| 亚洲狼人综合| 欧美va亚洲va香蕉在线| 欧美在线视频免费播放|