《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > KDD 2018 | 騰訊提出用于文本匹配的多信道信息交叉模型,在真實(shí)任務(wù)中表現(xiàn)優(yōu)異

KDD 2018 | 騰訊提出用于文本匹配的多信道信息交叉模型,在真實(shí)任務(wù)中表現(xiàn)優(yōu)異

2018-06-06
關(guān)鍵詞: QQ瀏覽器 MIX 多層感知器

來自騰訊 MIG 移動(dòng)瀏覽產(chǎn)品部和阿爾伯塔大學(xué)的研究者提出一種用于文本匹配的新模型 MIX,這是一個(gè)多信道信息交叉模型,大大提升了文本匹配的準(zhǔn)確率,在 QQ 瀏覽器搜索直達(dá)業(yè)務(wù)使用中也表現(xiàn)出了優(yōu)秀的性能,相對(duì)提升點(diǎn)擊率 5.7%。目前,這篇長(zhǎng)論文已經(jīng)被 KDD 2018 接收。

 

1 引言


短文本匹配在信息檢索、問答、對(duì)話系統(tǒng)等自然語言處理任務(wù)中起著至關(guān)重要的作用。早期的文本匹配方法包括基于檢索知識(shí)庫的自動(dòng)問答,以及基于詞匹配和特征交叉(feature crossing)的 ad-hoc 檢索 [17, 24]。然而,這些方法都依賴于手動(dòng)定義的模板和規(guī)則,限制了調(diào)整良好的模型的泛化能力及其面向不同任務(wù)需求的可移植性。近年來深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展為提高自然語言處理能力帶來了新的機(jī)遇。通過減少對(duì)人工特征工程的需求,深度網(wǎng)絡(luò)模型可以更好地泛化,處理多種任務(wù)。近年來,研究者提出大量基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)結(jié)構(gòu),用于短文本匹配 [2, 3, 6, 7, 9, 11–15, 19–21, 23]。


本文對(duì)近年來出現(xiàn)的大量文本匹配深度學(xué)習(xí)技術(shù)進(jìn)行了現(xiàn)實(shí)檢驗(yàn),發(fā)現(xiàn)盡管各種深度網(wǎng)絡(luò)模型都有創(chuàng)新之處,但在實(shí)際應(yīng)用中,尤其是在深度模型與語言結(jié)構(gòu)和語義特征分析相結(jié)合的情況下,這些模型仍有很大的改進(jìn)空間。本論文作者設(shè)計(jì)了一個(gè)多信道信息交叉模型(Multi-Channel Information Crossing,MIX),這是一個(gè)用于文本匹配的多信道卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,它在騰訊的線上流量中表現(xiàn)出了優(yōu)秀的性能。


MIX 是 CNN 在多種粒度下的一種新型融合,并具有精心設(shè)計(jì)的注意力機(jī)制。MIX 的基本思想可以概括為:首先,MIX 使用在不同粒度下提取的特征來表征文本片段,這些特征是從實(shí)驗(yàn)觀察到的與短語、詞組、句法和語義、詞頻和權(quán)重,甚至語法信息相關(guān)的多個(gè)粒度中提取的,這是充分挖掘深層模型潛力的必要實(shí)踐。文本匹配在多級(jí)特征上的組合會(huì)將深層架構(gòu)表達(dá)所有級(jí)別的局部依賴性的能力最大化,并將卷積過程中的信息損失最小化。


其次,MIX 還提出了一種新型融合技術(shù)來組合來自多信道的匹配結(jié)果。MIX 中有兩種類型的信道,兩個(gè)文本片段的特征可以通過這些信道進(jìn)行交互。其中一種是語義信息信道,它表示文本的意義,如一元分詞、二元分詞和三元分詞。另一種信道包含 term 權(quán)重、詞性和命名實(shí)體等結(jié)構(gòu)信息以及交互的空間相關(guān)性。在 MIX 中,語義信息通道的作用是相似度匹配,而結(jié)構(gòu)信息通道發(fā)揮注意力機(jī)制的作用。此外,MIX 使用 3D 卷積核來處理這些堆疊層,從多個(gè)信道提取抽象特征,并通過多層感知器來組合輸出 [5]。信道組合機(jī)制使得 MIX 能夠輕松地將新信道合并到其學(xué)習(xí)框架中,從而使 MIX 能夠適用于廣泛的任務(wù)。


研究者在騰訊的 Venus 分布式信息處理平臺(tái)上實(shí)現(xiàn)并部署了 MIX,基于多個(gè)數(shù)據(jù)集和在騰訊 QQ 移動(dòng)瀏覽器中的在線 A/B 測(cè)試對(duì) MIX 進(jìn)行了評(píng)估。在線評(píng)估部分中,研究者在英文問答數(shù)據(jù)集 WikiQA [25] 和一個(gè)從 QQ 移動(dòng)瀏覽器收集的中文搜索結(jié)果數(shù)據(jù)集上測(cè)試了 MIX。WikiQA 是一個(gè)可公開訪問的數(shù)據(jù)集,包含微軟提供的開放域問答對(duì)。在 WikiQA 數(shù)據(jù)集上,MIX 在 NDCG@3 上的表現(xiàn)比多種當(dāng)前最優(yōu)方法至少高 11.1%,NDCG@3 是衡量排名質(zhì)量的常用指標(biāo),在搜索引擎評(píng)估中被廣泛采用。


另一個(gè)中文搜索結(jié)果數(shù)據(jù)集是在用戶同意的情況下從騰訊 QQ 瀏覽器收集的,并從每天 1000 萬活躍用戶產(chǎn)生的在線搜索流量中采樣得來。該數(shù)據(jù)集包括 12 萬個(gè) query-document 條目和審核者生成的標(biāo)簽,這些標(biāo)簽顯示數(shù)據(jù)集中每個(gè) query-document 對(duì)的匹配程度。在此數(shù)據(jù)集上,MIX 在 NDCG@3 方面的表現(xiàn)至少比所有其他當(dāng)前最優(yōu)方法高出 8.2%。


此外,在騰訊 QQ 瀏覽器的在線 A/B 測(cè)試中,與未使用 MIX 的設(shè)置相比,MIX 實(shí)現(xiàn)了 5.7% 的點(diǎn)擊率增長(zhǎng)。評(píng)估結(jié)果展示了 MIX 在生產(chǎn)環(huán)境中提升文本匹配準(zhǔn)確率方面的優(yōu)秀性能,以及它可以泛化至不同語言數(shù)據(jù)集的能力。


3 MIX 模型


本章介紹 MIX 模型的細(xì)節(jié)。研究者將全局匹配定義為兩個(gè)句子之間的匹配,將局部匹配定義為句子中文本元素之間的匹配。受基于互動(dòng)的模型的啟發(fā),MIX 模型組合使用全局匹配和局部匹配技術(shù),對(duì)兩個(gè)文本片段之間的相關(guān)性進(jìn)行建模。依賴于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征學(xué)習(xí)能力,MIX 模型能夠有層次、多維度地描繪文本匹配問題的本質(zhì)。如圖 1 所示,MIX 模型將文本匹配問題高效分割為以下子問題:

微信圖片_20180606203050.jpg

圖 1:MIX 模型架構(gòu)圖示。


首先,如圖 1 左上方所示,句子被解析成不同粒度的文本片段,如一元分詞、二元分詞和三元分詞。用這種方式,MIX 通過找到文本片段最合適的語義表征(可以是單詞、短語或詞組)來改善局部匹配的準(zhǔn)確率。這里的目標(biāo)是盡可能多地捕捉不同互動(dòng)級(jí)別上的信息。


其次,如圖 1「attention units」部分所示,研究者提取語法信息,如相對(duì)權(quán)重和詞性標(biāo)注,據(jù)此在注意力信道中設(shè)計(jì)注意力矩陣,以封裝豐富的結(jié)構(gòu)模式。研究者使用該方法首先研究了全局匹配和局部匹配之間的關(guān)系,然后證明其注意力機(jī)制能夠基于局部匹配構(gòu)建全局匹配,從而增強(qiáng)整體匹配的質(zhì)量。

 

第三,如圖 1「weighed channels」和「2D-convolution」部分所示,研究者將局部匹配信道和注意力信道交叉起來,以為局部匹配提取有意義的特征組合。

微信圖片_20180606203146.jpg

圖 7:空間注意力層的元素對(duì)應(yīng)亮度。


4 性能評(píng)估


4.1 離線測(cè)試

微信圖片_20180606203207.jpg

表 1:在 WikiQA 數(shù)據(jù)集上的單機(jī)測(cè)試評(píng)估結(jié)果。

微信圖片_20180606203227.jpg

表 2:在 QBSearch 數(shù)據(jù)集上的單機(jī)測(cè)試評(píng)估結(jié)果。


4.2 在線測(cè)試

微信圖片_20180606203243.jpg

圖 8:在線 A/B 測(cè)試中返回搜索結(jié)果上的點(diǎn)擊數(shù)。

微信圖片_20180606203300.jpg

圖 9:在線 A/B 測(cè)試中兩組的反射率(每小時(shí)點(diǎn)擊數(shù))及對(duì)應(yīng)箱線圖。


論文:MIX: Multi-Channel Information Crossing for Text Matching 

微信圖片_20180606203321.jpg


摘要:短文本匹配在信息檢索、問答和對(duì)話系統(tǒng)等多項(xiàng)自然語言處理任務(wù)中發(fā)揮重要作用。傳統(tǒng)的文本匹配方法依賴于預(yù)制模版和規(guī)則。但是,對(duì)于只有有限單詞的短文本來說,這些規(guī)則無法很好地泛化至未觀測(cè)數(shù)據(jù)中。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺、語音識(shí)別和推薦系統(tǒng)領(lǐng)域中的成功運(yùn)用,近期很多研究致力于將深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語言處理任務(wù),以降低人工特征工程的成本。


本論文提出了 MIX 模型(Multi-Channel Information Crossing),該多信道卷積神經(jīng)網(wǎng)絡(luò)模型可用于生產(chǎn)環(huán)境中的文本匹配,它具備針對(duì)句子和語義特征的額外注意力機(jī)制。MIX 在不同粒度上對(duì)比文本片段,以形成一系列多信道相似度矩陣,它們與另一組精心設(shè)計(jì)的注意力矩陣交叉起來,將句子的豐富結(jié)構(gòu)展示給深度神經(jīng)網(wǎng)絡(luò)。


我們實(shí)現(xiàn)了 MIX,并將該系統(tǒng)部署在騰訊 Venus 分布式計(jì)算平臺(tái)上。由于 MIX 具備工程設(shè)計(jì)極佳的多信道信息交叉,因此在 WikiQA 英文數(shù)據(jù)集上的評(píng)估結(jié)果顯示:MIX 在歸一化折扣累計(jì)增益(normalized discounted cumulative gain,NDCG@3)指標(biāo)上優(yōu)于大量當(dāng)前最優(yōu)深度神經(jīng)網(wǎng)絡(luò)模型,至少高出 11.1%。


此外,我們還利用騰訊 QQ 瀏覽器的搜索服務(wù)使用戶執(zhí)行了在線 A/B 測(cè)試。結(jié)果顯示 MIX 將返回結(jié)果點(diǎn)擊量提高了 5.7%,原因在于 query-document 匹配準(zhǔn)確率有所提高,這展示了 MIX 在現(xiàn)實(shí)生產(chǎn)環(huán)境中的優(yōu)秀性能。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美一区二区播放| 一本色道久久88精品综合| 在线观看视频一区| 国产一区二区按摩在线观看| 欧美午夜不卡| 欧美日韩成人免费| 亚洲美女视频在线免费观看| 久久激情网站| 久久gogo国模裸体人体| 亚洲欧美一区二区三区极速播放 | 欧美一级视频一区二区| 亚洲视频在线观看网站| 一区二区三区欧美在线| 99pao成人国产永久免费视频| 亚洲高清电影| 亚洲国产成人av| 最新国产拍偷乱拍精品| 亚洲欧洲日本mm| 亚洲精品五月天| 亚洲乱码国产乱码精品精天堂| 亚洲激情中文1区| 亚洲精品网站在线播放gif| 亚洲黄色免费网站| 亚洲美女毛片| 中日韩美女免费视频网站在线观看| 99国产精品| 亚洲影院免费| 午夜在线观看欧美| 亚洲第一页中文字幕| 亚洲国产岛国毛片在线| 最新成人av在线| 99国产精品国产精品毛片| 中文欧美在线视频| 先锋影音一区二区三区| 久久久久欧美| 欧美精品粉嫩高潮一区二区 | 夜夜精品视频| 宅男噜噜噜66一区二区| 亚洲一区二区三区免费视频| 午夜一级久久| 另类av一区二区| 欧美日韩成人免费| 美腿丝袜亚洲色图| 欧美日韩视频免费播放| 国产精品久久久久久久久久尿 | 性欧美xxxx视频在线观看| 久久国产精品99久久久久久老狼| 亚洲国产精品久久人人爱蜜臀 | 制服丝袜激情欧洲亚洲| 亚洲欧美中文在线视频| 久久久亚洲高清| 欧美精品成人| 国产精品揄拍一区二区| 伊人男人综合视频网| 日韩视频中午一区| 午夜精品网站| 亚洲欧洲日产国产综合网| 亚洲女性裸体视频| 久久综合色播五月| 欧美三级日本三级少妇99| 国产欧美日韩三级| 亚洲国产综合视频在线观看| 亚洲午夜精品一区二区三区他趣| 久久精品二区| 亚洲午夜一区二区| 久久婷婷蜜乳一本欲蜜臀| 欧美另类亚洲| 国产综合香蕉五月婷在线| 亚洲精品自在久久| 亚洲春色另类小说| 亚洲一区在线播放| 美女任你摸久久| 国产精品免费网站| 亚洲福利视频一区| 亚洲欧美日韩直播| 99www免费人成精品| 久久精品盗摄| 欧美日韩在线高清| 精品69视频一区二区三区| 一本一道久久综合狠狠老精东影业| 久久岛国电影| 午夜天堂精品久久久久| 欧美激情久久久| 韩国成人理伦片免费播放| 亚洲视频在线播放| a4yy欧美一区二区三区| 久久五月天婷婷| 国产精品一区二区久久久久| 亚洲精品国产精品久久清纯直播| 久久福利一区| 欧美在线国产精品| 免费在线亚洲欧美| 国产揄拍国内精品对白| 亚洲无限av看| 中文国产成人精品| 欧美日本不卡| 亚洲韩国青草视频| 亚洲激情国产精品| 久久一区二区三区国产精品| 国产精品男女猛烈高潮激情| 亚洲精品免费在线播放| 亚洲激情成人| 久久久噜噜噜久久中文字免| 国产精品午夜电影| 亚洲午夜电影网| 夜夜嗨一区二区三区| 免费高清在线一区| 狠狠色丁香婷婷综合| 性色av一区二区三区红粉影视| 亚洲欧美国产视频| 久久精品视频在线观看| 国产精品中文字幕欧美| 亚洲天堂第二页| 亚洲视频图片小说| 欧美日韩一区不卡| 99在线热播精品免费99热| 亚洲人成在线观看| 欧美xxx在线观看| **网站欧美大片在线观看| 亚洲国产99| 久久天天躁狠狠躁夜夜av| 国产深夜精品| 欧美在线视频免费| 久久久久久日产精品| 国产午夜亚洲精品羞羞网站| 性色一区二区三区| 久久岛国电影| 国产一区二区日韩精品| 欧美在线高清视频| 久久久另类综合| 一区二区在线看| 亚洲精品国产精品国自产观看浪潮| 另类av一区二区| 亚洲国产欧美不卡在线观看| 亚洲精品一区二区三区樱花| 欧美激情片在线观看| 亚洲精品中文字幕在线| 亚洲一区影音先锋| 国产精品视频自拍| 欧美一区三区三区高中清蜜桃| 久久精品国产91精品亚洲| 国产精品高清在线| 亚洲欧美一区二区三区久久| 久久精品72免费观看| 激情成人亚洲| 亚洲精品久久久蜜桃| 欧美久久久久免费| 一区二区三区精品国产| 午夜久久久久久| 国产亚洲精品福利| 亚洲国产一区二区三区青草影视| 欧美激情第4页| 日韩午夜在线播放| 欧美一区日本一区韩国一区| 韩国女主播一区| 亚洲精品一二区| 欧美日韩另类视频| 亚洲欧美在线x视频| 久久午夜电影网| 亚洲美女在线视频| 亚洲一区二区视频在线| 国产欧美日韩中文字幕在线| 久久福利毛片| 欧美精品在线一区| 亚洲在线观看视频网站| 美女网站久久| 亚洲盗摄视频| 亚洲欧美国产77777| 韩日欧美一区二区| 99视频精品免费观看| 国产精品久久久久毛片软件| 欧美一区二区三区在线观看| 欧美福利视频在线观看| 亚洲无限av看| 欧美成人久久| 亚洲一级片在线观看| 美女精品在线观看| 亚洲天堂第二页| 亚洲欧美日本国产专区一区| 国产综合色在线| 亚洲色图制服丝袜| 狠狠色狠狠色综合日日tαg| 亚洲午夜高清视频| 一区二区视频免费在线观看| 亚洲一区二区三区精品在线观看| 狠狠综合久久av一区二区老牛| 在线亚洲伦理| 伊人影院久久| 性欧美大战久久久久久久久| 在线成人激情视频| 午夜精品一区二区三区在线播放| 在线观看日韩| 欧美亚洲在线播放| 亚洲日本电影| 久久久久亚洲综合| 亚洲视频axxx| 欧美日本亚洲韩国国产| 久久精品夜色噜噜亚洲aⅴ| 国产精品wwwwww| 99国产精品99久久久久久|