《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種基于成詞率和譜聚類的電力文本領域詞發現方法
一種基于成詞率和譜聚類的電力文本領域詞發現方法
2021年電子技術應用第10期
楊 政1,尹春林1,蔡 迪2,李慧斌2
1.云南電網有限責任公司電力科學研究院,云南 昆明650217;2.西安交通大學 數學與統計學院,陜西 西安710049
摘要: 考慮到當前電力行業仍缺少有效的領域詞發現方法,以電力行業科技項目文本為原始語料庫,將基于互信息與左右熵的統計特征與傳統語言構詞規則特征相融合,提出了電力文本成詞率的概念。所提方法首先利用成詞率對電力文本進行無監督篩選得到初始候選詞集,然后對候選詞集進行文本切片算法和常用詞過濾操作,最后進行詞嵌入和譜聚類得到最終所需的電力文本領域詞。實驗結果表明,所提出的方法準確有效,為電力文本的領域詞發現提供了一種新方法。
中圖分類號: TP311
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.211437
中文引用格式: 楊政,尹春林,蔡迪,等. 一種基于成詞率和譜聚類的電力文本領域詞發現方法[J].電子技術應用,2021,47(10):29-32,37.
英文引用格式: Yang Zheng,Yin Chunlin,Cai Di,et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique,2021,47(10):29-32,37.
A power text domain word discovery method based on word formation rate and spectral clustering
Yang Zheng1,Yin Chunlin1,Cai Di2,Li Huibin2
1.Electric Power Research Institute of Yunnan Power Grid Co.,Ltd.,Kunming 650217,China; 2.School of Mathematics and Statistics,Xi′an Jiaotong University,Xi′an 710049,China
Abstract: Considering that the current power industry still lacks effective domain word discovery methods, this paper takes the power industry science and technology project text as the original corpus, combines the statistical features based on the mutual information, left entropy as well as right entropy with the features of traditional language word-formation rules, and proposes the new concept of power text word formation rate. The proposed method firstly uses the word formation rate to get the initial candidate word set by unsupervised filtering, and then performs the text slicing algorithm and common word filtering operation on the candidate word set, and finally performs the word embedding and spectral clustering algorithms to get the final power text-domain words. Experimental results show that the method proposed in this paper is accurate and effective, and provides a new method for power text domain word discovery.
Key words : word formation rate;spectral clustering;domain word discovery;power text

0 引言

    針對特定領域的文本數據,領域詞的詞庫構建是最為關鍵的任務之一。傳統領域詞發現方法依賴互信息或鄰接熵得到候選詞集,進而利用word2vec進行詞向量轉化、K-means進行聚類[1],最終得到行業領域詞。傳統方法對詞語組合規律運用得不夠全面,因此這類方法篩選的候選詞集存在諸多不合理的詞語。領域詞發現分為候選詞集篩選與字符串過濾兩個步驟。

    在候選詞集篩選方面,領域詞發現算法主要是基于詞語統計特性的無監督方法或序列模式機器學習的有監督算法。基于無監督的方法中,互信息和凝固度是最常見的用來篩選詞語的度量,劉偉童等[2]提出使用互信息初步篩選詞集,隨后用鄰接熵對詞集進行再過濾的方法。劉昱彤等[3]使用改進的類Apriori算法,通過組合、統計頻率、過濾3個步驟來篩選候選詞集。杜麗萍等[4]提出利用改進的互信息,同時結合一定的構詞規則篩選候選詞集。無監督算法泛化性優良,但缺少規則,會遺留有較多垃圾串與非領域詞。基于監督的機器學習詞集篩選方法有馬建紅等[5]提出的基于CNN和LSTM抽取詞特征,隨后使用半馬爾科夫條件隨機場(SCRF)來識別詞語邊界。Fu Guohong等[6]在隱馬爾可夫模型(HMM)的框架下運用命名實體識別(NER)的思路,同時結合上下文篩選出候選詞集。陳飛等[7]提出運用條件隨機場來判斷分詞的詞匯邊界是否為候選詞邊界的方法。監督方法通常需要大量標注數據進行訓練,耗費高額的人工成本。此外,部分方法選擇基于純規則的構詞法[8-9](即漢語成詞規則)與一些領域先驗知識結合,進行候選詞集的篩選。這種方式雖然準確性相對較高,但是規則維護復雜,基本無跨域能力。




本文詳細內容請下載:http://m.jysgc.com/resource/share/2000003777




作者信息:

楊  政1,尹春林1,蔡  迪2,李慧斌2

(1.云南電網有限責任公司電力科學研究院,云南 昆明650217;2.西安交通大學 數學與統計學院,陜西 西安710049)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲欧美成人综合| 亚洲深夜福利网站| 一本色道久久综合狠狠躁的推荐| 激情91久久| 国产自产女人91一区在线观看| 国产精品一区二区三区久久久| 国产精品久久久免费 | 免费中文日韩| 美女精品国产| 牛夜精品久久久久久久99黑人| 久久只精品国产| 久久亚洲高清| 欧美**字幕| 免费观看国产成人| 欧美黄色一级视频| 欧美精品少妇一区二区三区| 欧美国产日韩一区| 欧美激情国产高清| 欧美日韩国产欧美日美国产精品| 欧美日韩国产精品专区| 欧美三级特黄| 国产精品久久亚洲7777| 国产伦精品一区二区| 国产日韩三区| 国内精品免费午夜毛片| 亚洲电影视频在线| 亚洲精品在线免费| 一区二区电影免费观看| 亚洲小说区图片区| 性色av香蕉一区二区| 久久精品夜色噜噜亚洲aⅴ| 亚洲欧洲综合另类| 一区电影在线观看| 性娇小13――14欧美| 久久久久久9| 欧美激情偷拍| 国产精品大片| 国产真实久久| 亚洲欧洲午夜| 亚洲影音一区| 亚洲国产免费看| 亚洲黄色免费| 亚洲桃花岛网站| 欧美中文字幕视频| 免费在线亚洲欧美| 欧美小视频在线观看| 国产乱码精品一区二区三区五月婷 | 国产日韩一区欧美| 在线视频观看日韩| avtt综合网| 欧美一区二区免费视频| 亚洲精品国精品久久99热一| 亚洲图中文字幕| 久久久久久穴| 欧美母乳在线| 国产日产欧产精品推荐色| 在线日韩视频| 亚洲视频每日更新| 久久精品国产第一区二区三区最新章节| 一色屋精品亚洲香蕉网站| 在线看日韩av| 亚洲一区二区三区在线| 亚洲国产精品小视频| 亚洲少妇自拍| 久久躁狠狠躁夜夜爽| 欧美网站在线观看| 在线观看亚洲专区| 亚洲永久免费| 一本色道久久88综合亚洲精品ⅰ | 狠狠综合久久av一区二区小说 | 亚洲欧美变态国产另类| 老鸭窝亚洲一区二区三区| 欧美三级在线| 激情五月综合色婷婷一区二区| 一区二区日韩精品| 91久久久久| 欧美在线三区| 欧美午夜精品| 亚洲国产高清aⅴ视频| 欧美一区二区三区另类| 亚洲午夜三级在线| 欧美国产视频在线观看| 国产一区二区三区自拍 | 亚洲美女一区| 久久视频在线看| 国产精品久久9| 亚洲人成网站999久久久综合| 亚洲欧美一区二区三区久久| 一区二区三区国产| 欧美 日韩 国产在线| 国内综合精品午夜久久资源| 亚洲一区在线观看免费观看电影高清| 亚洲日本国产| 欧美18av| 狠狠入ady亚洲精品经典电影| 亚洲性图久久| 亚洲私人影院| 欧美日韩精品一区二区三区四区 | 欧美亚洲一区三区| 欧美三级资源在线| 日韩一区二区高清| 一本久久a久久精品亚洲| 欧美福利小视频| 伊人伊人伊人久久| 久久精品亚洲精品| 久久三级视频| 国内外成人免费激情在线视频网站| 亚洲欧美国产精品va在线观看 | 亚洲欧美日韩另类| 亚洲自拍都市欧美小说| 欧美日韩免费精品| 亚洲精品女av网站| 亚洲精品中文字幕在线观看| 麻豆亚洲精品| 亚洲国产精品久久人人爱蜜臀 | 午夜欧美理论片| 午夜一区二区三区在线观看 | 亚洲肉体裸体xxxx137| 亚洲欧洲日产国产综合网| 麻豆精品视频在线观看| 精品69视频一区二区三区| 久久福利电影| 久久亚洲欧洲| 亚洲成在人线av| 亚洲精品国产视频| 欧美美女福利视频| 99视频有精品| 午夜精品美女久久久久av福利| 国产精品久久久久久久久婷婷| 亚洲婷婷综合色高清在线| 亚洲性图久久| 国产精品乱码久久久久久| 亚洲免费视频中文字幕| 久久精品二区三区| 国外成人在线视频| 亚洲人精品午夜| 欧美人与性动交α欧美精品济南到| 亚洲精品国产精品国自产观看浪潮 | 日韩性生活视频| 亚洲欧美日韩在线观看a三区| 国产精品香蕉在线观看| 欧美一进一出视频| 免费观看在线综合| 日韩视频免费观看| 欧美在线1区| 在线视频观看日韩| 亚洲视频综合在线| 国产女人精品视频| 亚洲国产毛片完整版| 欧美日韩精品一区二区三区四区| 亚洲图中文字幕| 久久精品一区二区三区不卡| 亚洲福利专区| 亚洲香蕉在线观看| 国产亚洲永久域名| 亚洲欧洲中文日韩久久av乱码| 欧美午夜www高清视频| 欧美一区二区在线看| 欧美精品一区视频| 亚洲免费影视第一页| 久久综合给合久久狠狠色| 亚洲精品在线免费观看视频| 欧美一区综合| 亚洲第一毛片| 午夜日韩激情| 亚洲国产99| 香蕉成人久久| 亚洲国产91色在线| 欧美一区二区三区在线观看视频| 尤物视频一区二区| 亚洲欧美激情一区| 亚洲国产第一| 欧美影院视频| 亚洲精品一区二区三区av| 久久国产婷婷国产香蕉| 亚洲毛片一区| 久久久久久久综合| 一本一本久久a久久精品综合麻豆| 久久久久成人网| 正在播放亚洲一区| 欧美成人免费网| 亚洲欧美日韩爽爽影院| 欧美精品不卡| 久久精品免费| 国产精品永久免费观看| 夜夜嗨av一区二区三区网站四季av| 国产亚洲网站| 亚洲一区二区不卡免费| 怡红院精品视频| 欧美在线视频一区二区三区| 亚洲另类自拍| 免播放器亚洲一区| 欧美一级一区| 国产精品播放| 99精品视频免费全部在线| 国外成人在线视频| 欧美亚洲视频| 夜色激情一区二区| 欧美国产日韩精品| 久久精品国产91精品亚洲|