《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 一種面向微博文本的命名實(shí)體識(shí)別方法
一種面向微博文本的命名實(shí)體識(shí)別方法
2018年電子技術(shù)應(yīng)用第1期
李 剛,黃永峰
清華大學(xué) 電子工程系NGN實(shí)驗(yàn)室,北京100084
摘要: 命名實(shí)體識(shí)別是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)基礎(chǔ)性技術(shù)。近年來(lái)微博等網(wǎng)絡(luò)社交平臺(tái)發(fā)展迅速,其獨(dú)特的形式對(duì)傳統(tǒng)的命名實(shí)體識(shí)別技術(shù)提出了新的挑戰(zhàn)。故提出一種基于條件隨機(jī)場(chǎng)模型的改進(jìn)方法,針對(duì)微博文本短小、語(yǔ)義含糊等特點(diǎn),引入外部數(shù)據(jù)源提取主題特征和詞向量特征來(lái)訓(xùn)練模型,針對(duì)微博數(shù)據(jù)規(guī)模大、人工標(biāo)準(zhǔn)化處理代價(jià)大的特點(diǎn),采取一種基于最小置信度的主動(dòng)學(xué)習(xí)算法,以較小的人工代價(jià)強(qiáng)化模型的訓(xùn)練效果。在新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)證明,該方法與傳統(tǒng)的條件隨機(jī)場(chǎng)方法相比F值提高了4.54%。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,黃永峰. 一種面向微博文本的命名實(shí)體識(shí)別方法[J].電子技術(shù)應(yīng)用,2018,44(1):118-120,124.
英文引用格式: Li Gang,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,44(1):118-120,124.

An approach to named entity recognition towards micro-blog
Li Gang,Huang Yongfeng
NGN Laboratory,Department of Electronics Engineering,Tsinghua University,Beijing 100084,China
Abstract: Named entity recognition is a fundamental technology in natural language processing(NLP). In recent years, rapid development of social network platforms such as microblog presents new challenges to the traditional named entity recognition(NER) technology because of the unique form. In this paper, an improved method based on the conditional random field(CRF) model is proposed for microblog texts. Due to the short texts and semantic ambiguity, external data resources are introduced to generate the topic feature and word representation feature for training the model. Due to the large-scale of microblog data and the high cost of manual standardization, an active learning algorithm based on least confidence is adopted to enhance the training effect at a lower cost of labor. Experiments on a Sina weibo data set show that this method improves the F-score by 4.54% compared to the traditional CRF methods.
Key words : named entity recognition;micro-blog;conditional random field;word representation;active learning

0 引言

    命名實(shí)體識(shí)別(Named Entity Recognition)是指識(shí)別文本中的各種實(shí)體,如人名、地名、機(jī)構(gòu)名或其他特有標(biāo)識(shí)[1],是自然語(yǔ)言處理(Natural Language Processing,NLP)中非常重要的一項(xiàng)基礎(chǔ)性技術(shù)。近年來(lái),Twitter、新浪微博等新型社交平臺(tái)發(fā)展迅速,成為命名實(shí)體識(shí)別的新方向。RITTER A[2]等人設(shè)計(jì)了一個(gè)應(yīng)用于Twitter上的T-NER系統(tǒng),重構(gòu)了命名實(shí)體識(shí)別的流程。TURIAN J等人[3]利用半監(jiān)督的系統(tǒng)進(jìn)行命名實(shí)體識(shí)別,大大減少了識(shí)別的成本。Liu Xiaohua等人[4]在一個(gè)半監(jiān)督的框架下把K近鄰分類器和CRF模型結(jié)合起來(lái),識(shí)別Twitter中的命名實(shí)體,取得了較好的效果。

    上述工作都是基于Twitter的,沒(méi)有考慮中文的深層語(yǔ)義,且多使用有限自建數(shù)據(jù)集,沒(méi)有考慮人工標(biāo)記的代價(jià)和不足,因此需要加以改進(jìn)。本文研究面向中文微博的命名實(shí)體識(shí)別,將識(shí)別視為一個(gè)序列標(biāo)注問(wèn)題,通過(guò)改進(jìn)的基于概率模型的算法優(yōu)化識(shí)別效果。針對(duì)微博文本短小、信息量少和文體不正規(guī)、語(yǔ)意含糊的特點(diǎn),引入外部數(shù)據(jù)源提取深層語(yǔ)義特征;針對(duì)微博數(shù)據(jù)集人工處理代價(jià)大的問(wèn)題,引入主動(dòng)學(xué)習(xí)算法,以較小的人工代價(jià)獲得識(shí)別效果的提升。

1 面向微博的命名實(shí)體識(shí)別方法

    參照CoNLL2003的標(biāo)準(zhǔn),給定一條微博,需要識(shí)別出其中的人名、地名、機(jī)構(gòu)名和其他實(shí)體共4類命名實(shí)體[5]。

    研究的基礎(chǔ)模型采用了CRF[6]模型。

1.1 特征選取

    基礎(chǔ)特征采用當(dāng)前詞和前后位置詞的詞型和詞性特征,這也是大多數(shù)CRF模型會(huì)采用的特征。由此生成的模型作為基礎(chǔ)模型,對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果作為基線。

1.1.1 主題特征

    (Latent Dirichlet Allocation,LDA)模型[7]是一種無(wú)監(jiān)督的概率主題模型。每個(gè)主題下都分布著出現(xiàn)概率較高的詞語(yǔ),這些詞都與這個(gè)主題有很強(qiáng)的相關(guān)性,利用這種相關(guān)性能在一定程度上解決一詞多義、同義詞等問(wèn)題。模型的訓(xùn)練使用了外部數(shù)據(jù)源,主題個(gè)數(shù)k可以事先指定。

    獲得LDA模型后,對(duì)于給定k個(gè)主題,通過(guò)p(w|t),將每個(gè)主題視為一個(gè)特征,將訓(xùn)練集中的每個(gè)詞看作是由k個(gè)特征表示的K維向量,則每個(gè)詞都可以表示成一個(gè)k維向量,即:

    jsj3-gs1.gif

其中,vi表示第i個(gè)詞的向量,λk表示該詞在第k個(gè)主題上的權(quán)重,N是詞表的大小。

1.1.2 詞向量特征

    詞向量源于HINTON G E[8]提出的Distributed Representation。一個(gè)流行的詞向量訓(xùn)練工具是word2vec,由MIKOLOV T[9]于2013年提出。word2vec能把詞映射到d維的向量空間,用向量空間的相似度表示文本語(yǔ)義上的相似度,有利于解決微博語(yǔ)義含糊的問(wèn)題。

    詞向量一般有200~500維,如果直接將詞向量作為特征引入CRF模型,則計(jì)算量過(guò)大。這里需要利用的是其相似性,因此可以用聚類的方法進(jìn)行簡(jiǎn)化。實(shí)驗(yàn)中選擇將詞語(yǔ)表示為200~500維的詞向量,再利用k-means進(jìn)行聚類,將類別作為特征輸入模型。特別需要指出的是,相比采用單一的聚類結(jié)果,更好的辦法是多層聚類(multi-layer cluster)。

jsj3-gs2.gif

1.2 模型強(qiáng)化

    人工處理微博語(yǔ)料人工處理代價(jià)高昂,為了以最小的人工代價(jià)獲得最大的系統(tǒng)性能提升,研究采用了主動(dòng)學(xué)習(xí)算法。主動(dòng)學(xué)習(xí)算法包含兩部分,一個(gè)是分類器,另一個(gè)是抽樣策略[10]。分類器采用前文所述的改進(jìn)型CRF模型。抽樣策略可采用如下方法。

    抽樣不確定度是一中常見(jiàn)的衡量樣本信息含量的方法,在序列標(biāo)注模型中,可以根據(jù)最小置信度(Least Confidence)φLC(x)來(lái)確定抽樣不確定度。

    jsj3-gs3.gif

其中,x表示一個(gè)樣本,y*是對(duì)應(yīng)概率最大的標(biāo)記。對(duì)于一個(gè)訓(xùn)練好的CRF模型,可以在對(duì)每條微博進(jìn)行標(biāo)記的同時(shí)輸出對(duì)應(yīng)概率P。現(xiàn)給出整個(gè)算法框架。

    算法1:基于置信度的主動(dòng)學(xué)習(xí)算法

    輸入:有標(biāo)記語(yǔ)料DL、未標(biāo)記語(yǔ)料DU

    輸出:分類器C

        用DL訓(xùn)練分類器C(CRF classifier)

        重復(fù):

jsj3-2-s1.gif

2 實(shí)驗(yàn)

    實(shí)驗(yàn)用到了3個(gè)數(shù)據(jù)集,分別是訓(xùn)練集、擴(kuò)展集和測(cè)試集。其中3 000條標(biāo)記語(yǔ)料作為訓(xùn)練集,2 000條標(biāo)記語(yǔ)料作為測(cè)試集。另外2 000條作為擴(kuò)展集用于主動(dòng)學(xué)習(xí),不需標(biāo)注。另有500萬(wàn)條經(jīng)過(guò)除重去噪的微博作為外部源,分別用于LDA模型訓(xùn)練和詞向量模型訓(xùn)練,供抽取外部特征使用。

2.1 評(píng)價(jià)標(biāo)準(zhǔn)

    本文采用的評(píng)價(jià)標(biāo)準(zhǔn)包括準(zhǔn)確率P(Precision)、召回率R(Recall)和F1值(F1-measure)3個(gè)指標(biāo)。F1是準(zhǔn)確率和召回率的調(diào)和平均值,是一個(gè)綜合性的指標(biāo)。

2.2 實(shí)驗(yàn)數(shù)據(jù)及分析

    (1)使用訓(xùn)練集提取基礎(chǔ)特征,建立基礎(chǔ)模型,在測(cè)試集上進(jìn)行評(píng)估。結(jié)果如表1所示。此結(jié)果將作為基線與后續(xù)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。

jsj3-b1.gif

    (2)引入外部特征進(jìn)行了多組實(shí)驗(yàn)。圖1左側(cè)是引入主題特征后的提升效果,雖然有效果但不明顯。圖1右側(cè)是將400維的詞向量進(jìn)行聚類后作為特征引入模型的效果。F1值在聚類個(gè)數(shù)為400時(shí)達(dá)到了63.96%,較基線有明顯提升。究其原因,主要是詞向量的分量中隱含了豐富的上下文語(yǔ)法和語(yǔ)義信息,而LDA模型內(nèi)部采用了詞袋模型,僅考慮了詞的共現(xiàn)關(guān)系而沒(méi)有考慮上下文關(guān)系,這樣簡(jiǎn)化了模型,但不可避免地帶來(lái)了信息的損失。

jsj3-t1.gif

    多層聚類的實(shí)驗(yàn)效果如圖2所示,每個(gè)維度下前4個(gè)柱圖表示單層聚類(分別是聚成200、300、400、500個(gè)類簇)時(shí)的效果,最后一個(gè)表示同時(shí)使用前4個(gè)聚類結(jié)果作為多層聚類時(shí)的效果,顯然效果比單層聚類更好。

jsj3-t2.gif

    同時(shí)將所有的外部特征添加到基礎(chǔ)模型進(jìn)行實(shí)驗(yàn),F(xiàn)1值提高到65.41%。

    (3)采用主動(dòng)學(xué)習(xí)的方法進(jìn)一步強(qiáng)化模型。提升效果如圖3所示。詳細(xì)的數(shù)據(jù)參見(jiàn)表2。曲線Model_ba表示僅用外部特征而不進(jìn)行主動(dòng)學(xué)習(xí)的模型效果。曲線Model_la表示把一次性把包括訓(xùn)練集DL和擴(kuò)展集DU在內(nèi)的所有語(yǔ)料都進(jìn)行標(biāo)記(label all)并用于模型訓(xùn)練。Model_al1、Model_al2和model_al3是使用主動(dòng)學(xué)習(xí)策略但閾值不同的模型。總體看,無(wú)論是取哪個(gè)閾值,相比不進(jìn)行主動(dòng)學(xué)習(xí),主動(dòng)學(xué)習(xí)都能提高F1值,且收斂速度很快。

jsj3-t3.gif

jsj3-b2.gif

    表2進(jìn)一步說(shuō)明了主動(dòng)學(xué)習(xí)的優(yōu)點(diǎn)。Model_la需要標(biāo)記微博2 080條,約9萬(wàn)個(gè)詞,人工代價(jià)太大。相比之下,3個(gè)主動(dòng)學(xué)習(xí)模型能明顯降低人工標(biāo)記量。其中Model_al2比Model_al3的F1值要高0.25%,標(biāo)記量?jī)H提升了12.9%;而Model_al1與Model_al2相比,F(xiàn)1值僅提升了0.1%,但代價(jià)是標(biāo)記量提升了17%,且多迭代了兩次。綜合考慮,取Model_al2作為最終的實(shí)驗(yàn)結(jié)果。此時(shí)僅需標(biāo)記457條微博,約37 000個(gè)標(biāo)記,F(xiàn)1值達(dá)到67.23%,相較最初的模型提升4.54%。

3 結(jié)語(yǔ)

    本文提出了一種面向中文微博的命名實(shí)體識(shí)別方法,先引入外部特征訓(xùn)練CRF模型,再采用主動(dòng)學(xué)習(xí)算法強(qiáng)化訓(xùn)練結(jié)果。實(shí)際工作中發(fā)現(xiàn),中文分詞效果不佳影響了后續(xù)的工作,主動(dòng)學(xué)習(xí)仍然引入了二次標(biāo)記,不利于大規(guī)模的識(shí)別任務(wù)。這些都需要在以后的工作中加以改進(jìn)。

參考文獻(xiàn)

[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,2007,30(1):3-26.

[2] RITTER A,CLARK S,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1524-1534.

[3] TURIAN J,RATINOV L,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.

[4] Liu Xiaohua,Zhang Shaodian,Wei Furu,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.

[5] TJONG KIM SANG E F,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,2003:142-147.

[6] LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,2001:282-289.

[7] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986,1:12.

[9] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,2013:3111-3119.

[10] WU Y,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,2006 IEEE International Conference on.IEEE,2006:529-532.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲激情一区二区| 欧美呦呦网站| 欧美一区二区黄| 99国产精品久久久久久久成人热| 亚洲成人在线免费| 国产在线欧美日韩| 国产精品系列在线| 国产精品区一区| 国产精品麻豆va在线播放| 欧美午夜电影一区| 欧美日韩在线播放一区| 欧美三级欧美一级| 欧美日韩国产色视频| 欧美巨乳在线| 欧美日韩免费精品| 欧美三级中文字幕在线观看| 欧美视频在线一区| 国产精品久久毛片a| 国产精品美女主播在线观看纯欲| 国产精品久久久久91| 国产精品欧美日韩一区| 国产精品久久久亚洲一区| 国产九九精品视频| 国产一区二区三区在线观看精品| 国产一区二区日韩| 一区二区视频在线观看| 最新精品在线| 99热免费精品| 亚洲欧美电影院| 久久精品水蜜桃av综合天堂| 亚洲日本激情| 一本色道久久88精品综合| 亚洲性夜色噜噜噜7777| 亚洲一区视频在线| 久久福利电影| 女仆av观看一区| 欧美日韩成人一区二区| 国产精品二区在线观看| 国产精品日韩精品| 国产一区二区三区黄视频| 在线成人亚洲| 亚洲久久视频| 午夜一区二区三区在线观看 | 亚洲激情国产| 亚洲精一区二区三区| 在线亚洲一区二区| 久久riav二区三区| 欧美国内亚洲| 国产伦精品一区二区| 怡红院精品视频在线观看极品| 亚洲精品国产精品乱码不99按摩| 亚洲欧美国产不卡| 亚洲欧洲日韩综合二区| 亚洲影音先锋| 巨胸喷奶水www久久久免费动漫| 欧美日韩高清在线一区| 国产亚洲欧美一区二区| 日韩午夜在线| 亚洲第一精品夜夜躁人人躁| 一本色道精品久久一区二区三区| 欧美在线视频播放| 欧美精品福利在线| 国产欧美一区二区在线观看| 亚洲精华国产欧美| 欧美一区二区三区男人的天堂 | 伊人久久婷婷| 亚洲影院在线观看| 亚洲精选在线观看| 久久久蜜臀国产一区二区| 欧美三级网址| 亚洲高清不卡| 欧美亚洲一区三区| 亚洲私人影院在线观看| 米奇777超碰欧美日韩亚洲| 国产精品日韩欧美| 亚洲欧洲综合另类在线| 性做久久久久久久免费看| 国产精品99久久久久久人| 美女成人午夜| 国产农村妇女精品一二区| 日韩视频免费| 亚洲精品视频二区| 久久理论片午夜琪琪电影网| 国产精品v欧美精品v日本精品动漫 | 精品69视频一区二区三区| 亚洲综合精品四区| 中文高清一区| 欧美国内亚洲| 136国产福利精品导航网址应用| 亚洲女人天堂av| 亚洲一区免费视频| 欧美精品日韩一本| 亚洲国产成人在线| 久久精品日产第一区二区| 欧美在线观看天堂一区二区三区| 欧美日韩少妇| 亚洲精品欧美日韩专区| 亚洲片在线观看| 久久夜色精品亚洲噜噜国产mv| 国产欧美精品xxxx另类| 亚洲一区久久| 亚洲欧美国产视频| 国产精品扒开腿做爽爽爽视频| 亚洲欧洲一区二区在线观看| 亚洲精品日韩在线观看| 玖玖综合伊人| 一区二区三区无毛| 久久精品国产91精品亚洲| 久久国产视频网| 国产裸体写真av一区二区| 亚洲小视频在线观看| 亚洲在线观看免费| 国产精品久久久久久久浪潮网站| 一区二区高清在线| 亚洲专区欧美专区| 国产精品jvid在线观看蜜臀 | 欧美专区18| 国产一区深夜福利| 久久精品国产亚洲aⅴ| 久久午夜精品| 1024精品一区二区三区| 亚洲日本成人| 欧美精品在线视频观看| 亚洲国产精品va在线看黑人| 亚洲免费观看视频| 欧美日韩系列| 亚洲一区二区三区免费在线观看| 亚洲欧美美女| 国产日产欧产精品推荐色| 欧美一区二区在线免费播放| 久久综合中文色婷婷| 亚洲国产专区| 亚洲视频精选在线| 国产精品卡一卡二| 欧美一级黄色网| 麻豆精品国产91久久久久久| 亚洲国产成人久久综合| 99国产一区| 国产精品美女www爽爽爽| 午夜一区二区三区在线观看 | 日韩视频一区二区在线观看 | 久久国产天堂福利天堂| 老司机一区二区三区| 一区二区三区自拍| 日韩天堂av| 国产精品女人网站| 久久精品视频在线看| 欧美激情一区在线| 制服诱惑一区二区| 久久久久国产一区二区三区| 在线观看欧美精品| 亚洲视频专区在线| 国产女主播一区二区| 亚洲国产日韩精品| 欧美日韩亚洲一区在线观看| 亚洲一区二区三区四区在线观看 | 午夜精品免费在线| 樱花yy私人影院亚洲| 亚洲一二区在线| 国产一区二区三区四区三区四| 亚洲欧洲美洲综合色网| 国产精品家教| 亚洲福利久久| 国产精品久久久久久久久婷婷| 久久福利资源站| 欧美三级网页| 亚洲第一视频网站| 国产精品白丝av嫩草影院 | 欧美在线高清| 亚洲欧洲日夜超级视频| 欧美一级淫片aaaaaaa视频| 怡红院av一区二区三区| 亚洲欧美bt| 亚洲福利视频免费观看| 亚洲欧美国产77777| 亚洲国产精品一区在线观看不卡| 午夜精彩国产免费不卡不顿大片| 激情小说亚洲一区| 亚洲图片激情小说| 在线成人激情视频| 亚洲欧美乱综合| 亚洲激情啪啪| 久久久久久久久久久成人| 日韩网站在线看片你懂的| 久久天天躁狠狠躁夜夜爽蜜月 | 99视频精品| 国内精品国产成人| 亚洲欧美国产视频| 亚洲欧洲中文日韩久久av乱码| 久久成人亚洲| 一区二区三区四区五区精品| 欧美a级大片| 久久成人这里只有精品| 国产精品扒开腿做爽爽爽软件| 亚洲精品国产品国语在线app| 国产女精品视频网站免费| 中国成人黄色视屏| 亚洲国产成人91精品| 久久一区二区三区av| 亚洲自拍偷拍视频|