《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 業界動態 > KDD 2018 | 騰訊提出用于文本匹配的多信道信息交叉模型,在真實任務中表現優異

KDD 2018 | 騰訊提出用于文本匹配的多信道信息交叉模型,在真實任務中表現優異

2018-06-06

來自騰訊 MIG 移動瀏覽產品部和阿爾伯塔大學的研究者提出一種用于文本匹配的新模型 MIX,這是一個多信道信息交叉模型,大大提升了文本匹配的準確率,在 QQ 瀏覽器搜索直達業務使用中也表現出了優秀的性能,相對提升點擊率 5.7%。目前,這篇長論文已經被 KDD 2018 接收。

 

1 引言


短文本匹配在信息檢索、問答、對話系統等自然語言處理任務中起著至關重要的作用。早期的文本匹配方法包括基于檢索知識庫的自動問答,以及基于詞匹配和特征交叉(feature crossing)的 ad-hoc 檢索 [17, 24]。然而,這些方法都依賴于手動定義的模板和規則,限制了調整良好的模型的泛化能力及其面向不同任務需求的可移植性。近年來深度神經網絡模型的發展為提高自然語言處理能力帶來了新的機遇。通過減少對人工特征工程的需求,深度網絡模型可以更好地泛化,處理多種任務。近年來,研究者提出大量基于卷積神經網絡和循環神經網絡的深度網絡結構,用于短文本匹配 [2, 3, 6, 7, 9, 11–15, 19–21, 23]。


本文對近年來出現的大量文本匹配深度學習技術進行了現實檢驗,發現盡管各種深度網絡模型都有創新之處,但在實際應用中,尤其是在深度模型與語言結構和語義特征分析相結合的情況下,這些模型仍有很大的改進空間。本論文作者設計了一個多信道信息交叉模型(Multi-Channel Information Crossing,MIX),這是一個用于文本匹配的多信道卷積神經網絡(CNN)模型,它在騰訊的線上流量中表現出了優秀的性能。


MIX 是 CNN 在多種粒度下的一種新型融合,并具有精心設計的注意力機制。MIX 的基本思想可以概括為:首先,MIX 使用在不同粒度下提取的特征來表征文本片段,這些特征是從實驗觀察到的與短語、詞組、句法和語義、詞頻和權重,甚至語法信息相關的多個粒度中提取的,這是充分挖掘深層模型潛力的必要實踐。文本匹配在多級特征上的組合會將深層架構表達所有級別的局部依賴性的能力最大化,并將卷積過程中的信息損失最小化。


其次,MIX 還提出了一種新型融合技術來組合來自多信道的匹配結果。MIX 中有兩種類型的信道,兩個文本片段的特征可以通過這些信道進行交互。其中一種是語義信息信道,它表示文本的意義,如一元分詞、二元分詞和三元分詞。另一種信道包含 term 權重、詞性和命名實體等結構信息以及交互的空間相關性。在 MIX 中,語義信息通道的作用是相似度匹配,而結構信息通道發揮注意力機制的作用。此外,MIX 使用 3D 卷積核來處理這些堆疊層,從多個信道提取抽象特征,并通過多層感知器來組合輸出 [5]。信道組合機制使得 MIX 能夠輕松地將新信道合并到其學習框架中,從而使 MIX 能夠適用于廣泛的任務。


研究者在騰訊的 Venus 分布式信息處理平臺上實現并部署了 MIX,基于多個數據集和在騰訊 QQ 移動瀏覽器中的在線 A/B 測試對 MIX 進行了評估。在線評估部分中,研究者在英文問答數據集 WikiQA [25] 和一個從 QQ 移動瀏覽器收集的中文搜索結果數據集上測試了 MIX。WikiQA 是一個可公開訪問的數據集,包含微軟提供的開放域問答對。在 WikiQA 數據集上,MIX 在 NDCG@3 上的表現比多種當前最優方法至少高 11.1%,NDCG@3 是衡量排名質量的常用指標,在搜索引擎評估中被廣泛采用。


另一個中文搜索結果數據集是在用戶同意的情況下從騰訊 QQ 瀏覽器收集的,并從每天 1000 萬活躍用戶產生的在線搜索流量中采樣得來。該數據集包括 12 萬個 query-document 條目和審核者生成的標簽,這些標簽顯示數據集中每個 query-document 對的匹配程度。在此數據集上,MIX 在 NDCG@3 方面的表現至少比所有其他當前最優方法高出 8.2%。


此外,在騰訊 QQ 瀏覽器的在線 A/B 測試中,與未使用 MIX 的設置相比,MIX 實現了 5.7% 的點擊率增長。評估結果展示了 MIX 在生產環境中提升文本匹配準確率方面的優秀性能,以及它可以泛化至不同語言數據集的能力。


3 MIX 模型


本章介紹 MIX 模型的細節。研究者將全局匹配定義為兩個句子之間的匹配,將局部匹配定義為句子中文本元素之間的匹配。受基于互動的模型的啟發,MIX 模型組合使用全局匹配和局部匹配技術,對兩個文本片段之間的相關性進行建模。依賴于深度神經網絡強大的表征學習能力,MIX 模型能夠有層次、多維度地描繪文本匹配問題的本質。如圖 1 所示,MIX 模型將文本匹配問題高效分割為以下子問題:

微信圖片_20180606203050.jpg

圖 1:MIX 模型架構圖示。


首先,如圖 1 左上方所示,句子被解析成不同粒度的文本片段,如一元分詞、二元分詞和三元分詞。用這種方式,MIX 通過找到文本片段最合適的語義表征(可以是單詞、短語或詞組)來改善局部匹配的準確率。這里的目標是盡可能多地捕捉不同互動級別上的信息。


其次,如圖 1「attention units」部分所示,研究者提取語法信息,如相對權重和詞性標注,據此在注意力信道中設計注意力矩陣,以封裝豐富的結構模式。研究者使用該方法首先研究了全局匹配和局部匹配之間的關系,然后證明其注意力機制能夠基于局部匹配構建全局匹配,從而增強整體匹配的質量。

 

第三,如圖 1「weighed channels」和「2D-convolution」部分所示,研究者將局部匹配信道和注意力信道交叉起來,以為局部匹配提取有意義的特征組合。

微信圖片_20180606203146.jpg

圖 7:空間注意力層的元素對應亮度。


4 性能評估


4.1 離線測試

微信圖片_20180606203207.jpg

表 1:在 WikiQA 數據集上的單機測試評估結果。

微信圖片_20180606203227.jpg

表 2:在 QBSearch 數據集上的單機測試評估結果。


4.2 在線測試

微信圖片_20180606203243.jpg

圖 8:在線 A/B 測試中返回搜索結果上的點擊數。

微信圖片_20180606203300.jpg

圖 9:在線 A/B 測試中兩組的反射率(每小時點擊數)及對應箱線圖。


論文:MIX: Multi-Channel Information Crossing for Text Matching 

微信圖片_20180606203321.jpg


摘要:短文本匹配在信息檢索、問答和對話系統等多項自然語言處理任務中發揮重要作用。傳統的文本匹配方法依賴于預制模版和規則。但是,對于只有有限單詞的短文本來說,這些規則無法很好地泛化至未觀測數據中。隨著深度學習在計算機視覺、語音識別和推薦系統領域中的成功運用,近期很多研究致力于將深度神經網絡模型應用于自然語言處理任務,以降低人工特征工程的成本。


本論文提出了 MIX 模型(Multi-Channel Information Crossing),該多信道卷積神經網絡模型可用于生產環境中的文本匹配,它具備針對句子和語義特征的額外注意力機制。MIX 在不同粒度上對比文本片段,以形成一系列多信道相似度矩陣,它們與另一組精心設計的注意力矩陣交叉起來,將句子的豐富結構展示給深度神經網絡。


我們實現了 MIX,并將該系統部署在騰訊 Venus 分布式計算平臺上。由于 MIX 具備工程設計極佳的多信道信息交叉,因此在 WikiQA 英文數據集上的評估結果顯示:MIX 在歸一化折扣累計增益(normalized discounted cumulative gain,NDCG@3)指標上優于大量當前最優深度神經網絡模型,至少高出 11.1%。


此外,我們還利用騰訊 QQ 瀏覽器的搜索服務使用戶執行了在線 A/B 測試。結果顯示 MIX 將返回結果點擊量提高了 5.7%,原因在于 query-document 匹配準確率有所提高,這展示了 MIX 在現實生產環境中的優秀性能。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
夜夜嗨av一区二区三区四季av| 欧美日韩一区视频| 久久福利精品| 亚洲精品久久久久| 国产午夜久久| 欧美三区视频| 欧美人成在线视频| 久久一二三四| 久久久久网址| 亚洲一区二区三区视频播放| 亚洲电影毛片| 久久精品人人做人人综合| 中文精品一区二区三区| 激情久久久久久久| 国产欧美日韩一区二区三区在线观看| 欧美日韩精品不卡| 欧美久久一级| 欧美成人精品不卡视频在线观看| 一区二区高清| 亚洲精选国产| 亚洲茄子视频| 亚洲人成7777| 久久精品一本久久99精品| 久久国产欧美精品| 亚洲欧美视频在线观看视频| 99热精品在线| 宅男噜噜噜66一区二区| 亚洲乱码国产乱码精品精可以看| 国产麻豆精品久久一二三| 国产欧美日韩亚洲一区二区三区| 国产精品久久久久av免费| 欧美午夜精品电影| 欧美日韩一级黄| 欧美精品在欧美一区二区少妇| 欧美噜噜久久久xxx| 欧美成年人视频网站| 欧美黄色aaaa| 欧美激情综合在线| 久久久久久一区二区| 久久国产精品99精品国产| 香蕉乱码成人久久天堂爱免费 | 你懂的亚洲视频| 久久躁日日躁aaaaxxxx| 午夜精品久久久久久久| 欧美亚洲一区二区在线观看| 欧美一级片一区| 久久综合伊人77777| 久热这里只精品99re8久| 欧美国产丝袜视频| 欧美女同在线视频| 欧美三区在线| 国内久久精品| 在线观看亚洲专区| 99日韩精品| 亚洲男人第一网站| 亚洲一区二区三区高清不卡| 欧美一级二区| 亚洲电影av在线| 亚洲午夜日本在线观看| 亚洲欧美在线免费| 欧美a级一区| 欧美日韩国产999| 国产精品激情偷乱一区二区∴| 国模精品娜娜一二三区| 亚洲国产欧美一区| 亚洲淫片在线视频| 久久精品国产99精品国产亚洲性色 | 亚洲国产日韩欧美综合久久| 91久久久亚洲精品| 一二三四社区欧美黄| 一区二区激情| 欧美尤物一区| 欧美成人激情视频免费观看| 乱中年女人伦av一区二区| 欧美巨乳在线| 国产精品日韩精品欧美精品| 国产日韩亚洲欧美综合| 亚洲成人中文| 一区二区av| 久久se精品一区二区| 夜夜嗨av一区二区三区| 亚洲激情视频在线观看| 久久午夜国产精品| 制服诱惑一区二区| 亚洲欧美大片| 亚洲高清视频在线观看| 久久国产精品99国产精| 久久精品亚洲热| 亚洲综合视频在线| 亚洲精品午夜| 性欧美大战久久久久久久免费观看| 免费看亚洲片| 国产精品拍天天在线| 极品日韩av| 先锋影音网一区二区| 亚洲区在线播放| 久久精品国产视频| 欧美另类69精品久久久久9999| 国产午夜精品在线| 日韩一区二区精品葵司在线| 欧美亚洲免费| 午夜精品久久久久久久久久久久| 六月婷婷久久| 国产在线乱码一区二区三区| 亚洲精选在线观看| 91久久综合亚洲鲁鲁五月天| 午夜精品www| 麻豆国产精品va在线观看不卡 | 欧美性片在线观看| 欲香欲色天天天综合和网| 欧美亚洲在线| 亚洲一二三区视频在线观看| 欧美国产日韩一二三区| 国产日韩欧美在线视频观看| 99精品视频免费观看| 亚洲精品日日夜夜| 亚洲欧美日韩中文播放| 欧美日韩综合不卡| 亚洲激情午夜| 亚洲人成毛片在线播放| 久久精品视频免费播放| 国产精品一区二区三区久久| 亚洲精品三级| 一本一道久久综合狠狠老精东影业 | 久久久免费观看视频| 国产精品久久久久久亚洲调教 | 亚洲日本乱码在线观看| 亚洲高清视频一区二区| 欧美在线一二三| 国产伦精品一区二区三区视频孕妇 | 91久久精品网| 久久精品国产96久久久香蕉| 久久免费视频在线观看| 性欧美精品高清| 国产精品伦一区| 99精品视频免费全部在线| 久久福利视频导航| 免费试看一区| 极品日韩久久| 日韩午夜黄色| 欧美精品一区二区在线观看| 亚洲日本久久| 日韩视频免费观看高清在线视频 | 欧美日韩在线视频首页| 亚洲全部视频| 亚洲一二三四久久| 欧美午夜精品久久久| 亚洲国产岛国毛片在线| 亚洲精选视频免费看| 欧美激情一区二区| 夜夜嗨av一区二区三区网站四季av| 日韩一区二区电影网| 欧美午夜精品理论片a级大开眼界| 亚洲精品国产精品乱码不99| 亚洲一区二区伦理| 国产精品福利影院| 一区二区三区不卡视频在线观看 | 欧美在线日韩精品| 欧美成人久久| 亚洲国产精品一区二区久| 亚洲网站在线播放| 国产精品久久久久国产精品日日| 性欧美大战久久久久久久免费观看| 久久国产精品久久久久久久久久 | 亚洲一级高清| 久久深夜福利| 在线精品观看| 亚洲综合99| 国产欧美大片| 亚洲精品久久在线| 欧美经典一区二区三区| 最新国产成人在线观看| 亚洲综合不卡| 国产一区视频网站| 一区二区三区欧美日韩| 国产精品国产亚洲精品看不卡15| 欧美中文字幕在线观看| 麻豆精品一区二区综合av| 在线一区二区三区做爰视频网站 | 亚洲美女少妇无套啪啪呻吟| 国产精品日韩专区| 欧美一级播放| 欧美日韩综合不卡| 午夜精品久久久久久久久| 欧美激情精品久久久六区热门| 日韩视频一区二区| 欧美在线视频不卡| 亚洲电影成人| 在线视频欧美日韩精品| 国产一区二区高清不卡| 亚洲看片免费| 国产精品日韩精品| 亚洲国产午夜| 欧美日韩国产综合视频在线观看| 欧美一区激情| 欧美日产一区二区三区在线观看| 久久精品国产久精国产爱| 欧美日本簧片| 亚洲国产精品久久久久久女王| 欧美日韩国产一级|