《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 解決方案 > 維基百科你已經(jīng)是個(gè)大百科了,該自己學(xué)會(huì)用ML識(shí)別原文出處了

維基百科你已經(jīng)是個(gè)大百科了,該自己學(xué)會(huì)用ML識(shí)別原文出處了

2019-04-21
關(guān)鍵詞: 維基百科 WikiLabels

維基百科可能是我們認(rèn)為比較客觀真實(shí)的材料了,但它包羅萬象卻又會(huì)引起一些小問題,例如很多句子或說法提供不了引用出處。那么機(jī)器學(xué)習(xí)在預(yù)測引用,并給出引用原因方面就顯得非常重要,它會(huì)讓這一自由的百科全書更加完美無瑕。


讓維基百科保持高質(zhì)量的一個(gè)關(guān)鍵機(jī)制就是內(nèi)聯(lián)引用的使用。通過引用,讀者和編輯者可以確定一篇文章中的信息準(zhǔn)確反映了其來源。正如維基百科的可驗(yàn)證性原則所要求的,「受到質(zhì)疑的材料,或者很可能受到質(zhì)疑的材料,以及所有的引文,都要具有可靠的、已發(fā)布的來源」,沒有來源的材料應(yīng)該被刪除,或者使用「需要引用」的標(biāo)記來提出質(zhì)疑。


然而,決定哪些句子需要引用可能不是一項(xiàng)簡單的任務(wù)。一方面,編輯者被強(qiáng)烈要求避免為很明顯的或者常識(shí)性的信息添加引用——例如「天空是藍(lán)色的」。另一方面,有時(shí)候天空并不一定是藍(lán)色的——所以或許我們還是需要一個(gè)引用?


將這個(gè)問題擴(kuò)大到整個(gè)百科全書的規(guī)模可能會(huì)變得難以應(yīng)付。維基百科編輯者的專業(yè)知識(shí)很有價(jià)值,但他們的時(shí)間卻是有限的,那么他們的引用工作應(yīng)該集中在哪些類型的事實(shí)、文章和主題上呢?此外,最近的統(tǒng)計(jì)表明,相當(dāng)一部分比例的文章只有很少的參考文獻(xiàn),英文維基百科中四分之一的文章根本就沒有任何參考文獻(xiàn)。這意味著,有大約 35 萬篇文章包含一個(gè)或多個(gè)需要添加引用的標(biāo)記,而且我們可能遺漏了更多。


我們最近設(shè)計(jì)了一個(gè)框架,幫助編輯者在維基百科中識(shí)別哪些句子需要引用,并且確定需要引用的優(yōu)先順序。通過針對(duì)英語、意大利語和法語維基百科的編輯者們開展的一項(xiàng)大型研究,我們首先確定了維基百科文章中單個(gè)句子需要引用的共同原因。然后我們使用這項(xiàng)研究的結(jié)果來訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型分類器,它能夠預(yù)測英語維基百科中任何一個(gè)給定的句子是否需要一個(gè)引用,以及為何需要引用。這個(gè)模型將在 3 個(gè)月內(nèi)部署到其他語言的版本中。


通過識(shí)別維基百科獲取信息的位置,我們能開發(fā)系統(tǒng),以支持志愿者驅(qū)動(dòng)的驗(yàn)證和事實(shí)檢查,從而有可能提升維基百科的長期可靠性,抵御信息偏差、信息質(zhì)量的差距以及虛假宣傳。


我們?yōu)楹我茫?/p>


為了教會(huì)機(jī)器如何識(shí)別不經(jīng)驗(yàn)證的陳述,我們首先要將句子需要引用的原因進(jìn)行系統(tǒng)的分類。


我們首先檢查了與英語、意大利語和法語維基百科中與可驗(yàn)證性相關(guān)的政策和指南,并嘗試特征化這些政策中的標(biāo)準(zhǔn),即是否添加引用的標(biāo)準(zhǔn)。為了驗(yàn)證和豐富實(shí)踐的集合,我們要求來自于這三個(gè)語言社區(qū)的 36 名維基百科編輯者參與試點(diǎn)實(shí)驗(yàn)。我們使用 WikiLabels 收集了編輯者們對(duì)維基百科文章中句子的反饋:編輯者要決定一個(gè)句子是否需要引用,并且以自由形式的文本給出他們的理由。


我們的方法,以及最終關(guān)于是否需要添加引用的理由可以在項(xiàng)目網(wǎng)頁中看到:


地址:https://meta.wikimedia.org/wiki/Research_talk:Identification_of_Unsourced_Statements/Labeling_Pilot

微信圖片_20190421153253.jpg

添加引用的理由

微信圖片_20190421153348.jpg

不添加引用的理由


教機(jī)器學(xué)習(xí)引用


接下來,我們訓(xùn)練機(jī)器學(xué)習(xí)模型來發(fā)現(xiàn)需要引用的句子,并提供對(duì)應(yīng)的理由。


我們首先訓(xùn)練一個(gè)模型,從整個(gè)編輯者社區(qū)中學(xué)習(xí)如何識(shí)別需要引用的句子。我們創(chuàng)建了一個(gè)英語維基百科的「精選文章」數(shù)據(jù)集,這是一個(gè)高質(zhì)量的文章選集,每一篇都引用了很多文章。精選文章中包含內(nèi)聯(lián)引用的句子被標(biāo)記為正例,沒有內(nèi)聯(lián)引用的句子被標(biāo)記為負(fù)例。使用這些數(shù)據(jù),我們基于句子中的詞序列訓(xùn)練了一個(gè) RNN 分類模型,它能夠預(yù)測一個(gè)句子為正例(需要引用)還是負(fù)例(不需要引用)。最終模型對(duì)正例的分類準(zhǔn)確率高達(dá) 90%。


解釋算法預(yù)測


那么為什么模型具有高達(dá) 90% 的準(zhǔn)確率呢?在決定句子是否需要引用的時(shí)候,算法是什么樣子的呢?


為了解釋這些結(jié)果,我們對(duì)需要引用的句子進(jìn)行了采樣,并且將模型考慮最多的單詞進(jìn)行了高亮標(biāo)注。例如,在陳述「opinion」的例子中,模型將最高的權(quán)重給了「claimed,宣稱」一詞。在「statistics,統(tǒng)計(jì)」這項(xiàng)引用原因中,對(duì)模型最重要的單詞是分析數(shù)值時(shí)最常用的動(dòng)詞。在「scientific,科學(xué)」引用原因的例子中,模型將更多的注意力給了領(lǐng)域?qū)S玫膯卧~,例如「quantum,量子」。

微信圖片_20190421153425.jpg

模型認(rèn)為需要引用的句子樣本,關(guān)鍵單詞高亮標(biāo)注。


預(yù)測句子引用的原因


更進(jìn)一步,我們希望模型提供引用原因的完整解釋。我們首先使用 Amazon Mechanical Turk 設(shè)計(jì)了一個(gè)眾包實(shí)驗(yàn),用來收集引用的理由,并將其作為標(biāo)注。我們從精選文章中隨機(jī)抽取了 4000 個(gè)句子,讓眾包工作人員使用我們?cè)谥暗难芯恐凶R(shí)別出的八個(gè)原因進(jìn)行標(biāo)注。我們發(fā)現(xiàn),當(dāng)句子與科學(xué)或歷史事實(shí)相關(guān),或者是直接、間接引語時(shí),我們需要提供引用。

微信圖片_20190421153457.png


我們修改了在之前的研究中所用的神經(jīng)網(wǎng)絡(luò),以便能夠?qū)o源的句子分類為 8 個(gè)引用原因類別中的一個(gè)。我們使用眾包標(biāo)記的數(shù)據(jù)集重新訓(xùn)練了這個(gè)網(wǎng)絡(luò),發(fā)現(xiàn)它在預(yù)測引用原因的時(shí)候達(dá)到了合理的準(zhǔn)確率(精度 0.62),尤其是對(duì)于具有大量訓(xùn)練數(shù)據(jù)的類別。


后續(xù)步驟:預(yù)測跨語言和主題的「引用需要」


這個(gè)項(xiàng)目的下一個(gè)階段將會(huì)涉及到修改我們的模型,以讓它們能夠?yàn)榫S基百科上的任何一種可用的語言進(jìn)行訓(xùn)練。我們將會(huì)使用這些跨語言模型來量化維基百科不同版本中未經(jīng)驗(yàn)證的內(nèi)容的比例,并將引文的覆蓋范圍映射到不同的文章主題,以幫助編輯者識(shí)別那些非常需要添加高質(zhì)量引用的地方。


我們計(jì)劃盡快提供這些新模型的源代碼。同時(shí),您可以查看我們的研究論文「Citation Needed: A Taxonomy and Algorithmic Assessment of Wikipedia's Verifiability」,這篇論文最近被 The Web Conference 2019 接收,它的補(bǔ)充材料詳細(xì)分析了引用政策以及我們用于模型訓(xùn)練的所有數(shù)據(jù)。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久久精品国产免费观看同学 | 91久久一区二区| 亚洲精品黄网在线观看| 亚洲国产欧美一区| 国产婷婷一区二区| 国产精品福利在线| 欧美激情一区二区三区成人| 久久国产直播| 国产精品99久久久久久白浆小说| 一本色道久久88精品综合| 激情欧美一区二区三区| 国产精品美女一区二区在线观看| 欧美国产乱视频| 蜜臀久久99精品久久久久久9| 久久久久久久综合| 欧美成人r级一区二区三区| 欧美在线视频不卡| 亚洲高清一二三区| 国产婷婷色一区二区三区四区| 欧美视频免费看| 久久网站免费| 欧美在线视频网站| 亚洲欧美精品在线观看| 亚洲国产精品第一区二区三区| 亚洲网站在线观看| 国产亚洲欧美一区二区三区| 欧美日韩国产黄| 久久黄色小说| 欧美亚洲一区| 亚洲一区二区三区影院| av成人免费观看| 亚洲日本中文字幕区| 亚洲福利免费| 欧美中文字幕在线播放| 在线一区二区三区做爰视频网站 | 亚洲丰满少妇videoshd| 国产精品日韩一区二区| 欧美午夜一区| 欧美视频你懂的| 国产精品v欧美精品v日韩精品| 欧美日韩性生活视频| 欧美精品在线一区二区三区| 欧美黄色小视频| 欧美精品国产精品| 欧美老女人xx| 欧美日韩免费高清| 欧美激情一区二区三区全黄| 欧美大色视频| 欧美久久久久久久久| 欧美精品亚洲精品| 欧美日韩国产成人在线| 欧美四级伦理在线| 国产精品蜜臀在线观看| 国产精品美女久久久久久2018 | 香蕉尹人综合在线观看| 欧美在线观看视频一区二区三区 | 亚洲黄色精品| 亚洲国产美女| 99精品热6080yy久久 | 在线亚洲欧美专区二区| 亚洲一区二区成人| 午夜精品久久久久| 久久精品成人| 免费观看成人www动漫视频| 小辣椒精品导航| 久久久99免费视频| 欧美成人激情在线| 欧美日韩影院| 国产情人节一区| 在线看欧美日韩| 日韩视频在线观看免费| aa国产精品| 午夜一区二区三区不卡视频| 久久激情久久| 一本色道久久88精品综合| 99re6热在线精品视频播放速度| 亚洲视频大全| 久久国产精品99国产精| 欧美成人免费在线| 国产精品高潮呻吟久久av黑人| 国产欧美欧洲在线观看| 伊人精品成人久久综合软件| 在线高清一区| 一区二区三区高清在线| 先锋影音网一区二区| 99在线热播精品免费| 亚洲女人天堂成人av在线| 亚洲激情国产精品| 欧美性做爰猛烈叫床潮| 国产综合在线看| 亚洲免费福利视频| 一区二区精品| 久久国产一区二区三区| 一区二区欧美国产| 久久久久久久综合| 欧美视频一区二区三区…| 国产亚洲精品美女| 在线观看欧美日韩国产| 亚洲日本久久| 欧美一区二区在线看| 日韩天堂在线视频| 久久久久久**毛片大全| 欧美日韩理论| 国产精品午夜av在线| 亚洲黄色尤物视频| 亚洲欧美在线aaa| 一道本一区二区| 久久亚洲私人国产精品va媚药 | 午夜久久美女| 欧美激情精品久久久久久久变态 | 国产欧美一区二区视频| 欧美三区在线视频| 狠狠色综合色区| 亚洲视频 欧洲视频| 99国产精品99久久久久久| 久久综合网络一区二区| 国产区日韩欧美| 亚洲男女毛片无遮挡| 亚洲欧美电影在线观看| 欧美体内谢she精2性欧美| 日韩视频在线观看免费| 99国产一区| 欧美精品激情blacked18| 亚洲国产欧美一区二区三区同亚洲| 久久精品二区亚洲w码| 亚洲欧洲99久久| 国产精品久久久999| 亚洲天堂网在线观看| 亚洲调教视频在线观看| 欧美色欧美亚洲高清在线视频| 亚洲毛片在线免费观看| 亚洲深夜福利| 国产精品日本| 午夜精品久久久久久久99热浪潮| 欧美一级片久久久久久久 | 欧美肉体xxxx裸体137大胆| 99国产精品久久| 亚洲——在线| 国产麻豆日韩| 久久精品30| 欧美ed2k| 亚洲精品久久久蜜桃 | 欧美区视频在线观看| 亚洲精品欧美一区二区三区| 在线视频欧美精品| 国产精品高潮呻吟视频| 亚洲综合色视频| 久久精品女人| 亚洲电影欧美电影有声小说| 日韩午夜视频在线观看| 欧美日韩免费在线| 亚洲在线视频免费观看| 久久国产精品72免费观看| 狠狠干狠狠久久| 亚洲乱码视频| 欧美视频一区二区三区…| 亚洲欧美日韩综合aⅴ视频| 久久久久综合网| 91久久国产自产拍夜夜嗨| 一区二区日韩精品| 国产精品丝袜白浆摸在线| 久久激情网站| 欧美日韩国产综合一区二区| 亚洲综合视频1区| 欧美电影免费观看高清完整版 | 一区二区三区欧美日韩| 欧美四级在线观看| 欧美在线播放| 欧美另类在线播放| 亚洲男人第一网站| 欧美va亚洲va国产综合| 亚洲一区二区四区| 美女精品视频一区| 亚洲色诱最新| 老司机午夜免费精品视频| 亚洲免费观看| 久久久人成影片一区二区三区观看| 亚洲国产成人av| 午夜精品偷拍| 亚洲国产精品一区二区第四页av | 欧美一级成年大片在线观看| 在线播放日韩欧美| 亚洲女同性videos| 在线观看欧美亚洲| 欧美一区二区三区免费看| 亚洲韩日在线| 欧美影院午夜播放| 亚洲人成在线观看| 久久www免费人成看片高清| 亚洲人成网站999久久久综合| 欧美一区二区三区免费观看| 亚洲品质自拍| 久久久久久久97| 亚洲婷婷免费| 欧美高清在线视频观看不卡| 午夜国产精品影院在线观看| 欧美激情一区二区三区四区| 欧美一区二区三区四区在线观看地址| 欧美日韩成人一区二区三区| 久久精品毛片|