《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 結合廣告相似性網絡的搜索廣告推薦
結合廣告相似性網絡的搜索廣告推薦
2015年電子技術應用第3期
朱志北,李 斌,劉學軍,胡 平
南京工業大學 電子與信息工程學院,江蘇 南京211816
摘要: 目前已有的基于協同過濾的搜索廣告推薦方法中,基于鄰域的協同過濾方法存在著無法處理稀疏數據的問題,而基于矩陣分解的方法雖然能夠推斷出缺失的數據,但是卻缺少鄰居的協作。提出了一種搜索廣告推薦算法,即ASN-MF,該算法通過建立廣告相似性網絡得到廣告的相似性關系,并將其加入到矩陣分解的損失函數中,使得分解后的廣告特征矩陣能夠帶有相似鄰居的性質。實驗基于KDD Cup 2012-Track2的真實數據集,證明了算法的可行性與有效性。
中圖分類號: TP181
文獻標識碼: A
文章編號: 0258-7998(2015)03-0116-04
Incorporating ad similarity network for sponsored search ad recommendation
Zhu Zhibei,Li Bin,Liu Xuejun,Hu Ping
College of Electronics and Information Engineering,Nanjing Technology University,Nanjing 211816,China
Abstract: In the present collaborative filtering based recommendation methods of sponsored search, the neighborhood based collaborative filtering method is unable to handle the sparse data. And although the matrix factorization based collaborative filtering method can infer the missing data, it lacks coordination from neighborhood. The paper proposes a recommendation algorithm of sponsored search named ASN-MF. The algorithm can get the similarity relationship of the advertisements through the establishment of the similarity network of advertisements and add this relationship into the loss function of matrix factorization to make the decomposed characteristic matrix of the advertisements has a similar nature of neighbors. The experiment is based on real data sets from KDD Cup 2012-Track2, which can prove the feasibility and validity of this method.
Key words : computational advertising;click-through rate;collaborative filtering;matrix factorization

 

0 引言

  贊助商搜索(Sponsored Search)是互聯網廣告的一種投放形式,其廣告投放的目標位置是搜索引擎返回的搜索結果頁面[1]。在贊助商搜索場景中,搜索引擎對用戶可能查詢的關鍵詞進行競拍,廣告主根據自己的需求來競拍這些關鍵詞。目前廣告主的主要付費方式為按點擊付費,若單位點擊的付費額記為CPC(Cost Per Click),則搜索引擎的收益記為CTR×CPC,點擊率(Click Through Rate,CTR)表示用戶可能對廣告進行點擊的概率。搜索引擎想獲得最大的收益就需要把CTR×CPC大的廣告展示在靠前的位置。因此,廣告的推薦是搜索廣告領域中的一個關鍵問題,具有很高的研究價值。

  近年來,國內外研究人員對搜索廣告推薦問題進行了相關的研究。RENDLE S[2-3]提出了因子分解機模型,該模型利用參數的因子分解來對不同類別的特征之間的交互進行建模,值得注意的是,很多用來訓練的特征往往會被用戶視為隱私而不愿意被廣告推薦系統提取使用。ANASTASAKOS T[4]等將協同過濾應用到了廣告推薦系統中。文中簡單地將展示廣告的頁面視為基本協同推薦系統中的“用戶”,將頁面上展示的廣告看成是相應的“產品”,在某個頁面中廣告的點擊率看成是“用戶”對“產品”的評分,使用傳統的基于用戶的協同過濾方法進行廣告的推薦取得了很好的效果,但該方法在面對稀疏矩陣時會出現預測質量下降的問題。SHEN S[5]等提出了一種基于矩陣分解的個性化廣告推薦模型。該模型將廣告-查詢矩陣分解為表示廣告的廣告特征矩陣和表示查詢的查詢特征矩陣,此時廣告和查詢都被投影到了相應的特征空間中,該模型在稀疏矩陣中取得了很好的推薦效果。

  矩陣分解是一種基于模型的協同過濾方法,與基于鄰域的協同過濾方法相比,不再直接利用相似用戶或產品做出推薦。所以矩陣分解并不是基于鄰域的協同過濾的改進,兩者是從不同方向來改進推薦結果的。本文通過將兩者的優勢結合提出了ASN-MF算法(An ad similarity network Aided Matrix Factorization Algorithm),該算法通過建立廣告相似性網絡得到廣告的相似性關系,將這樣的關系加入到矩陣分解的損失函數之中,使得廣告特征矩陣能夠朝著相似鄰居的方向進化。本文提出了基于LDA模型的廣告相似性衡量方法,從語義層面衡量廣告的相似性,并構建了廣告相似性網絡;通過將相似廣告信息加入到矩陣分解的損失函數中,將基于模型的協同過濾方法同基于鄰域的協同過濾方法結合起來,提高了推薦的質量。

1 廣告相似性網絡的構建

  本文利用LDA(Latent Dirichlet Allocation)模型為廣告進行主題建模,利用廣告的主題分布衡量廣告的主題相似性,進而構建廣告的相似性網絡。

  1.1 LDA模型

  LDA是一個三層產生式概率模型,包含詞、主題和文檔三層結構[6]。給定一個文檔集合D,包含M 篇文檔和V個不同的詞匯。在集合D對應的LDA模型中,假設主題個數為K,則LDA生成文檔的過程可以用圖1所示的貝葉斯網絡圖來表示。首先,LDA從參數為?茁的Dirichlet分布中抽取主題與單詞的關系?漬。LDA生成一篇文檔d時,從參數為?琢的Dirichlet分布中隨機選擇一個?轉維的向量?茲d,表示文檔d中的主題分布,根據這個分布對文檔d中的所有單詞,從參數為?茲d的多項式分布中隨機選擇zdn,代表當前單詞選擇的主題,最后從參數為?漬Zdn的多項式分布中抽取出單詞wdn。

003.jpg

  圖1中方框表示循環,右下角的M、N、K表示循環次數,其中,M是文檔集合中文檔的個數,N是文檔中單詞的個數,K是主題的個數。實心節點代表觀測變量,文中表示文檔中的單詞,空心節點表示隱含變量,箭頭表示依賴關系。?琢是一個K維的Dirichlet參數,?茁是一個K×V的參數矩陣。

  LDA提取文檔集中隱含主題的過程就是根據上述文檔產生的過程,在文本的單詞作為可觀測變量的情況下,反推出其相應的隱含變量,從而得到各文檔的主題概率分布?茲,進而挖掘出文本中潛在的語義知識。

  1.2 廣告相似性計算

  利用傳統的文本相似度方法來衡量廣告之間的相似度,存在維度大的問題,本文利用LDA模型將廣告文本映射到主題空間,利用廣告的主題分布來計算兩個廣告之間的相似度,其維度控制在T維(T是主題的個數),能夠有效降低文本表示的維度。此外,從語義層面衡量廣告之間的相似性能夠更加貼近現實。

  本文將廣告的描述詞集合作為廣告的描述文檔,利用1.1節介紹的LDA主題模型對廣告文檔進行建模,得到廣告的主題概率分布矩陣:

  1.png

  對于兩個廣告a和b,本文通過計算向量之間的余弦夾角來衡量它們的相似性:

  2.png

  1.3 構建廣告相似性網絡

  本文利用廣告之間的相似度建立一個廣告相似性網絡,構建過程如下:首先根據式(2)計算任意兩個廣告的相似度,據此生成了廣告相似性矩陣,這樣就可以以廣告為節點、以廣告之間的相似度為邊的權值,構造出廣告的相似性網絡。然后通過一個相似性閾值u過濾網絡中關系較弱的邊,最終得到一個關系更緊密的廣告相似性網絡G=(A,E),其中A表示網絡中的廣告節點集合,邊集E表示廣告之間的相似性關系。此外,本文用Fa∈A定義廣告a的鄰居集合,即與廣告a有邊相連的廣告的集合。廣告相似性網絡如圖2所示。

004.jpg

2 結合廣告相似性網絡的廣告推薦算法

  2.1 搜索廣告推薦中的矩陣分解

  矩陣分解的目標是把一個原始矩陣分解為兩個特征矩陣相乘的形式,而原矩陣可以利用兩個特征矩陣近似重建。在搜索廣告推薦問題的背景下,本文用a={A1,A2,…,Am}表示廣告集,用q={Q1,Q2,…,Qn}表示查詢詞集,用在該查詢詞下廣告的點擊率表示廣告-查詢詞的相關度(查詢詞Qn下廣告Am的相關度表示為Rm,n),所有相關度R={Rm,n|Am∈a,Qn∈q}構建了一個廣告-查詢詞相關度矩陣。本文利用矩陣分解方法將廣告-查詢詞相關度矩陣R∈Rm×n(m是廣告的數量,n是查詢詞的數量)分解為一個廣告特征矩陣A∈Rl×m和一個查詢詞特征矩陣Q∈Rl×n:

  R≈ATQ(3)

  其中l是潛在特征向量的維度,每一個維度表示一種特征,利用這些特征向量來描述一個廣告或查詢詞。因此,結果來捕獲廣告a與查詢詞b之間的相關性,即考慮到所有潛在特征時,廣告a與查詢詞b的相關性。的值越大,說明廣告a與查詢詞b的相關性越大。

  為了使廣告特征矩陣與查詢詞特征矩陣的乘積接近R,考慮到廣告-查詢詞相關度矩陣的稀疏,即R中的很大一部相關度缺失,定義下面的目標函數:

  4.png

  其中Iij表示在廣告-查詢詞相關度矩陣中廣告i與查詢詞j之間的相關度,如果已存在,Iij就為1,否則為0。此外,為了避免過度擬合,為方程增加了正則化項:

  5.jpg

  其中W(W是一個X×Y的矩陣)是Frobenius范數,參數l控制著正規化程度。

  2.2 結合廣告相似性網絡的矩陣分解

  為了結合廣告相似性網絡信息,給矩陣分解目標函數引入一個相似廣告正則化項,通過學習廣告相似性網絡中鄰居廣告來進一步推斷廣告與一個查詢的相關度。

  在廣告相似性網絡中,廣告與其鄰居廣告有著不同的相似度,因此不能平等地考慮所有鄰居廣告。為了解決相似度的差異性,在引入相似廣告正則化項時考慮到廣告與其鄰居之間的相似性:

  6.png

  其中a是一個常數用來控制正則化的程度。S(j,f)表示廣告aj與其鄰居af之間的相似性,這個相似性的值由在1.3中建立的廣告相似性網絡得到。

  然后把它應用到2.1節提出的搜索廣告矩陣分解推薦模型中,式(5)被改寫為:

   

  本文使用隨機梯度下降方法進行迭代訓練,通過不斷更新特征矩陣,最終求得最優解。

  8.png

  其中g為學習速率。

  通過引入相似廣告正則化項,能夠使廣告特征矩陣向著鄰居的方向進化,即在廣告相似度網絡中相似度較高的廣告會擁有相似的潛在特征向量。

  2.3 結合廣告相似性網絡的廣告推薦算法

  本節總結了ASN-MF算法的過程:

  輸入:廣告集合a、查詢詞集合q、廣告-查詢詞相關度矩陣R、廣告描述文檔和相關參數。

  輸出:廣告-查詢詞矩陣相關度。

  (1)對廣告數據進行基于LDA的建模,得到廣告的主題分布矩陣。

  (2)根據式(2)計算廣告之間的相似度,構建廣告相似性網絡G=(A,E)。

  (3)根據式(7)將廣告相似性網絡融入矩陣分解方法,得到目標函數l。

  (4)利用隨機梯度下降的方法,求得廣告潛在特征矩陣A和查詢詞潛在特征矩陣Q。

  (5)根據得到的潛在特征矩陣,采用式(3)進行廣告和查詢詞的相關度預測,計算每個廣告與查詢詞的預測相關度。

3 實驗

  3.1 數據集

  實驗數據來自KDD Cup 2012-Track2中的數據集,該數據集是騰訊搜搜(SOSO)提供的搜索廣告點擊數據。此外,搜搜還提供了一個廣告描述文檔,本文用該文檔對廣告進行LDA建模。

  實驗分別從數據集中抽取90%、80%、70%、60%作為訓練數據集,分別記為訓練集1、訓練集2、訓練集3和訓練集4,在數據稀疏程度不同時比較算法的效果。抽樣后廣告和查詢詞數量的統計情況如表1所示。

001.jpg

  3.2 實驗結果

  USN-TF模型研究的目的是提高搜索廣告推薦的準確度,而推薦問題主要影響廣告的排序和展現,因此,本文使用曲線下面積(Area Under Curve,AUC)指標來衡量算法的效果。

  3.2.1 潛在特征向量的維度l的設定

005.jpg

  以訓練集2中的數據作為實驗數據,圖3表示在潛在特征向量的維度l取值不同時,ASN-MF模型預測準確度的變化。從圖中可以看出,隨著隱含特征向量維度l的增加,AUC的值逐步提高;當潛在特征向量的維度從0增加到8時,AUC的值提升明顯;當因子分解維度在8~20之間時, AUC的值增長十分緩慢。由于隨著維度的增加,算法的計算效率會下降,為了權衡準確度和時間效率,后面的實驗中取l值為8。

  3.2.2 預測質量分析

  為了檢驗算法的有效性,本實驗將ASN-MF與傳統的協同過濾方法(CF)和矩陣分解方法(MF)進行對比,實驗結果如圖4所示。

006.jpg

  從圖4可以看出,在預測廣告的點擊率時本文提出的方法有更高的預測準確度,具體來說,在4個訓練數據集下,ASN-MF相較于CF和MF分別提高了5.7%~9.5%和3.5%~4.3%。這是因為USN-TF既具備矩陣分解模型在處理稀疏矩陣時的優勢,又能夠進一步利用鄰居廣告對分解出的廣告特征矩陣進行進一步的加工,使得預測的準確度進一步提高。本實驗也證明了將矩陣分解與基于鄰居的協同過濾結合能夠提高預測的質量。

  從圖4還可以看出,在數據稀疏度逐漸增大的情況下,USN-TF相比于MF依舊保持了較高的準確度,而CF表現相對較差。這是因為USN-TF和MF都是利用分解得到的兩個特征矩陣來還原原始的矩陣,對矩陣中不存在的元素可以根據其特征矩陣重新構造出來。而傳統的基于鄰域的協同過濾方法在數據稀疏的情況下很難找到相似的鄰居,所以導致推薦的準確度大幅下降。

4 結論

  本文首先從廣告的語義層面出發,基于廣告的主題分布建立了廣告相似性網絡,然后討論了用矩陣分解方法進行廣告推薦的過程,最后通過引入相似性網絡中的廣告的鄰居使訓練出來的廣告特征矩陣帶有相似鄰居的性質,在解決數據稀疏性問題的同時進一步提高了推薦準確度。實驗表明,結合了鄰域的矩陣分解算法比單一算法擁有更高的推薦質量。

  參考文獻

  [1] 周傲英,周敏奇,宮學慶.計算廣告:以數據為核心的Web綜合應用[J].計算機學報,2011,34(10):1805-1819.

  [2] RENDLE S.Factorization machines[C].Proceedings of the 10th IEEE International Conference on Data Mining.Sydney,NSW:IEEE Press,2010:995-1000.

  [3] RENDLE S.Social network and click-through prediction with factorization machines[J].KDD Cup,2012.

  [4] ANASTASAKOS T,HILLARD D,KSHETRAMADE S,et al.A collaborative filtering approach to ad recommendation using the query-ad click graph[C].Proceedings of the 18th ACM Conference on Information and knowledge Management.Hong Kong,China:ACM,2009:1927-1930.

  [5] SHEN S,HU B,CHEN W,et al.Personalized click model through collaborative filtering[C].5th ACM International Conference on Web Search and Data Mining,Seattle,WA,United states: Association for Computing Machinery,2012:323-332.

  [6] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].The Journal of machine learning research,2003(3):993-1022.


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美日韩在线大尺度| 久久精品国产免费观看| 日韩视频在线观看免费| 欧美午夜精品久久久久久浪潮 | 亚洲美女诱惑| 久久久久久久久综合| 影音先锋成人资源站| 最新日韩在线视频| 亚洲香蕉网站| **欧美日韩vr在线| 久久电影一区| 一区二区三区国产精华| 免费不卡欧美自拍视频| 亚洲欧美日韩国产综合在线| 欧美日本在线一区| 91久久久一线二线三线品牌| 国产精品久久久久影院亚瑟 | 欧美一区二区精美| 国产精品二区三区四区| 亚洲美女毛片| 91久久在线播放| 另类成人小视频在线| 欧美一区二区日韩一区二区| 欧美午夜一区二区| 亚洲一区精彩视频| 亚洲国产欧美一区二区三区久久 | 午夜亚洲影视| 国产视频亚洲精品| 久久黄色小说| 欧美影视一区| 激情久久中文字幕| 久久久国产一区二区三区| 欧美在线国产| 狠狠久久亚洲欧美专区| 久久蜜桃资源一区二区老牛 | 午夜精品久久久久久久蜜桃app| 亚洲电影免费观看高清完整版| 欧美一区二区三区免费在线看| 国产精品在线看| 久久精品免费| 亚洲青涩在线| 亚洲最新色图| 国产日韩欧美综合一区| 久热精品视频| 9国产精品视频| 亚洲午夜免费视频| 国产一区欧美| 欧美激情一区二区三区全黄| 亚洲一区二区黄| 久久精品日韩| 一区二区三区欧美| 国自产拍偷拍福利精品免费一| 免费在线观看日韩欧美| 一本色道久久| 欧美资源在线观看| 亚洲伦理精品| 国产一区二区三区在线观看视频| 欧美jizzhd精品欧美喷水| 亚洲伊人观看| 亚洲区在线播放| 亚洲一区二区三区高清 | 一区二区欧美在线| 黄色另类av| 国产精品午夜春色av| 欧美成人蜜桃| 欧美在线观看一区二区| 99视频一区| 亚洲人久久久| 久久国产精品网站| 亚洲男人av电影| 99这里只有精品| 91久久久亚洲精品| 韩国女主播一区二区三区| 国产精品女人网站| 久久久久99| 翔田千里一区二区| 亚洲精品一区在线观看| 一区二区视频在线观看| 国产视频观看一区| 国产精品美女午夜av| 欧美日本二区| 欧美不卡三区| 免费观看成人| 蜜臀av国产精品久久久久| 欧美亚洲在线| 久久成人精品| 欧美综合77777色婷婷| 午夜天堂精品久久久久| 亚洲欧美日本在线| 亚洲欧美日韩在线综合| 亚洲欧美日韩一区二区在线| 亚洲亚洲精品在线观看| 中日韩午夜理伦电影免费| 日韩亚洲在线| 亚洲视频视频在线| 亚洲在线第一页| 午夜视频久久久| 久久国内精品视频| 久久综合综合久久综合| 欧美成在线视频| 欧美午夜www高清视频| 欧美天天综合网| 国产美女精品| 亚洲国产精品电影| 在线视频你懂得一区| 午夜影院日韩| 亚洲精品中文在线| 亚洲欧美日韩另类| 久久一区亚洲| 国产精品国产三级国产aⅴ无密码| 国产精品专区一| 亚洲欧洲一二三| 性欧美办公室18xxxxhd| 亚洲三级免费电影| 亚洲国产精品久久久久久女王| 国产精品你懂的在线欣赏| 在线欧美亚洲| 国产精品劲爆视频| 久久米奇亚洲| 欧美紧缚bdsm在线视频| 国产女同一区二区| 日韩一区二区免费高清| 欧美在线免费视频| 麻豆av一区二区三区| 欧美色播在线播放| 尤物精品国产第一福利三区 | 久久午夜电影网| 国产精品欧美久久久久无广告| 亚洲大胆视频| 欧美一区二区三区另类 | 欧美日本国产精品| 91久久精品视频| 亚洲精品国久久99热| 久久精品国亚洲| 国产精品一区二区久久久| 亚洲精选国产| 亚洲免费观看在线视频| 欧美制服丝袜第一页| 欧美丰满高潮xxxx喷水动漫| 狠狠色丁香久久婷婷综合_中| 亚洲五月六月| 亚洲欧美久久久久一区二区三区| 欧美经典一区二区| 亚洲国产精品一区二区久| 久久精品国产精品亚洲精品| 久久精品日韩| 国产在线日韩| 亚洲高清在线播放| 蜜桃伊人久久| 亚洲乱码国产乱码精品精| 日韩亚洲欧美精品| 欧美日韩国语| 亚洲午夜精品久久| 欧美一区二区三区的| 国产偷自视频区视频一区二区| 欧美一级淫片播放口| 另类成人小视频在线| 亚洲激情亚洲| 午夜国产精品视频| 国产日韩三区| 99综合精品| 国产伦精品一区二区三区免费迷 | 一本大道久久精品懂色aⅴ| 欧美日韩在线高清| 欧美一区二区三区视频| 麻豆久久婷婷| 亚洲特色特黄| 老司机精品视频网站| 亚洲三级免费观看| 亚洲综合欧美| 亚洲福利视频一区| 午夜国产精品视频| 在线日韩欧美| 欧美一区二区三区成人| 亚洲国产精品va在看黑人| 亚洲欧美成人一区二区在线电影| 国精产品99永久一区一区| 一区二区三区www| 在线观看亚洲一区| 欧美呦呦网站| 中文日韩欧美| 欧美国产日韩一区二区| 午夜视黄欧洲亚洲| 国产精品国产精品国产专区不蜜| 久久精品国产清高在天天线| 国产精品久久久久久妇女6080 | 国产精品久久毛片a| 日韩一区二区精品葵司在线| 国产美女精品人人做人人爽| 夜久久久久久| 91久久精品一区| 欧美1区2区3区| 久久精品免费观看| 国产精品视频久久| 亚洲特黄一级片| 亚洲乱码精品一二三四区日韩在线| 蜜桃伊人久久| 亚洲国产美女精品久久久久∴| 国产一区三区三区| 久久精品国产免费观看|