《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于網絡搜索數據的品牌汽車銷量預測研究
基于網絡搜索數據的品牌汽車銷量預測研究
謝天保,崔田
(西安理工大學,陜西 西安 710054)
摘要: 隨著大數據時代的到來,基于網絡數據的應用研究已成為熱點。以品牌汽車銷量預測為目標,將傳統相關性分析與基于LASSO的特征選擇方法相結合,選取相關品牌的網絡搜索數據關鍵特征,而后建立了LASSO線性回歸、支持向量回歸和隨機森林三種機器學習預測模型,并與傳統ARIMA模型進行比較分析。實驗結果表明,隨機森林模型的預測平均誤差為6.4%,比ARIMA模型降低了12.2個百分點,預測結果可為汽車企業生產規劃和制定營銷方案提供有效的決策支持。
中圖分類號:F272.1;TP181
文獻標識碼:A
DOI: 10.19358/j.issn.2096-5133.2018.08.012
中文引用格式:謝天保,崔田.基于網絡搜索數據的品牌汽車銷量預測研究[J].信息技術與網絡安全,2018,37(8):50-53.
Research on brand vehicle sales forecasting based on network search data
Xie Tianbao,Cui Tian
(Xi’an University of Technology, Xi’an 710054, China)
Abstract: With the advent of the big data era, application research based on network data has become a hot spot. Aiming at brand car sales forecasting,this paper combined the traditional correlation analysis with the LASSO feature selection method to select the key features of the web search data of the related brands, and then established three machine learning prediction models of penalty linear regression, support vector regression and random forest and compared with the traditional ARIMA model. The experimental results show that the average prediction error of random forest model is 6.4%, which is 12.2% lower than that of ARIMA model. The forecast results can provide more effective decision support for the production planning and marketing plan of automobile manufacturing enterprises.
Key words : network search data;vehicle sales forecasting;LASSO feature selection; machine learning algorithm

0  引言

 

近年來,我國汽車產銷呈現較快增長,產銷總量屢創歷史新高,據中國汽車工業協會統計數據,2016年中國汽車產銷均超2 800萬輛,連續八年蟬聯全球第一[1]。據車主之家網站提供的數據顯示,2009~2016年我國銷量排名前十的品牌汽車占比高達55.84%,對于我國汽車消費者而言,品牌效應十分顯著。但是汽車生產廠商追求規模效應時存在一定的盲目性,導致產能過剩的問題日益凸顯。在嚴峻的形勢下,汽車生產企業應認真分析市場未來的需求量和可能存在的變化趨勢,合理規劃生產計劃,采用以銷定產的生產策略。因此如何準確地預測銷量,對于汽車生產企業研究市場行情及時調整生產經營策略有著極其重要的意義。隨著人工智能的出現以及基于網絡數據的預測研究的廣泛開展,將網絡搜索數據應用于汽車銷量的預測已成為研究的熱點。

傳統的汽車銷量預測研究采用的主要方法有灰色系統理論[2]、時間序列模型[3]以及人工神經網絡[4]等,但這些研究采用的數據時間粒度比較大,研究對象大都集中于我國汽車年度總銷量的預測,研究成果難以應用推廣。文獻[5]在建立網絡關鍵詞搜索數據與汽車銷量理論框架的基礎上,使用自動推薦技術選取關鍵詞并進行關鍵詞合成,然后針對不同價格區間的汽車銷量與相應合成指數進行建模預測且平均絕對誤差百分數均不超過4%,但是同一價格區間內包含眾多不同品牌車型,預測結果無法提供有價值的決策支持;文獻[6]、文獻[7]針對大眾途觀和寶馬汽車銷量進行預測研究,通過人工方式進行網絡數據關鍵詞的選取,發現加入百度關鍵詞作為解釋變量的模型相比傳統的ARMA模型,預測精度有了一定程度的提高;文獻[8]利用經濟變量和谷歌在線搜索數據建立預測月度汽車銷售數據的多變量模型,結果表明包括谷歌搜索數據在內的模型在統計上超過了大多數預測領域的傳統模型;文獻[9]提出了一種搜索數據關鍵特征選取方法,但是該選取方法最終僅僅保留了相關性最高的一個關鍵特征,難免會造成有效信息的損失。

綜上所述,目前的研究存在的問題包括研究對象與時間粒度選擇不當,網絡數據特征分析及選取的科學體系暫未形成,傳統模型預測性能具有局限性。本文擬基于網絡搜索數據,將品牌汽車銷量作為研究對象,時間粒度選取為月度,將傳統相關性分析與基于LASSO的特征選擇方法相結合,篩選出最優的關鍵特征數據,然后應用多種機器學習算法建立品牌汽車銷量的預測模型,從而實現針對性更強、更準確、更具有應用價值的品牌汽車銷量的預測。

 

1  網絡搜索數據關鍵特征選取

 

本文選取“大眾”、“本田”、“奧迪”三個比較有代表性的品牌汽車作為研究對象,收集了2011年1月~2017年12月期間各品牌汽車月度銷量數據。根據消費者購買決策過程,消費者在產生購車需求后,大多數購車消費者都會通過搜索引擎從網絡中快速獲取到所需要的信息,而關鍵詞搜索是在線信息搜索時最常用的策略,所以將用戶搜索關鍵詞作為網絡搜索數據的關鍵特征。本文選擇國內應用最為廣泛的百度搜索引擎的百度指數作為網絡搜索關鍵詞數據來源。下面以“大眾”品牌汽車為例進行詳細說明。


1.1 關鍵詞的選取及拓展

 

本文采用文本挖掘的方法,結合汽車品牌、熱銷車型信息、車型配置指標數據等各個方面的信息,對網絡上與大眾品牌汽車相關的新聞、論壇文章、點評、分享交流等信息進行查找收集,剔除掉一些無用信息后,再使用NLPIR漢語分詞系統對原始文本進行關鍵詞提取,得到關鍵詞列表及其權重,選定其中權值較高的“大眾”、“大眾4S店”、“大眾SUV”、“大眾POLO”、“大眾商務車”等為初始關鍵詞。然后圍繞選取的初始關鍵詞綜合使用了長尾關鍵詞拓展法、站長工具以及網頁相關搜索推薦等方法拓展出數量更多的關鍵詞,剔除重復或者有歧義的關鍵詞后建立了一個包含276個關鍵詞的初始詞庫。

 

1.2 關鍵詞搜索指數相關性分析

  

首先利用網絡爬蟲工具獲取初始詞庫中各關鍵詞相同時間段內月度搜索數據,針對關鍵詞搜索數據進行預處理(剔除缺失數據超過6個月或者搜索指數過低的關鍵詞數據),最后得到118個符合要求的關鍵詞搜索數據。但是并不是每個關鍵詞搜索數據都與實際銷量存在相關關系。所以本文首先應用傳統相關性分析方法通過判定各個關鍵詞搜索數據與大眾品牌汽車銷量的Spearman秩相關系數,篩選出相關系數大于0.5的搜索關鍵詞(顯著相關),共計37個。然后采用時差相關分析確定上一步篩選出的關鍵詞搜索指數與大眾品牌汽車銷量的時滯階數均處于滯后1~3階的范圍(網絡搜索行為是一種即時性行為,而購買汽車作為重大經濟決策,消費者一般都會在做出購買決策前幾個月就開始搜索相關的信息)。

現有研究針對相關性分析結果一般有兩種處理方法:第一種是直接選取相關性最高的作為唯一的解釋變量;第二種是利用指數合成方法將合成后的關鍵指數作為解釋變量。兩種方法難免都會造成有效信息的損失。但是若保留所有的解釋變量,解釋變量之間也可能存在多重共線性,所以本文在相關性分析基礎上應用LASSO算法來進一步分析與選取特征[10]

 

1.3 基于LASSO的特征選取

 

在高維數據變量選擇方法的研究領域中,Tibshirani在1996年提出普通線性模型下的Least Absolute Shrinkage and Selection Operate(LASSO)算法,LASSO算法就是在損失函數后面加上懲罰項(即L1正則項),L1正則項可以約束方程的稀疏性,這種稀疏性即可應用于特征的選擇,這種方法與傳統的算法相比優點在于可以在進行連續的變量選擇的同時進行模型參數估計[11]。而且LASSO算法可以有效解決解釋變量多重共線性的問題,使得后續建立的模型擁有穩定的性能。

針對上一節相關性分析結果,采用R語言中的glmnet包實現的LASSO算法對關鍵詞搜索數據進行分析與特征選取。通過分析模型的Lambda解路徑圖可以發現,隨著懲罰的力度加大,越來越多的變量系數會被壓縮為0,而那些在Lambda比較大時仍然擁有非零系數的變量就是越重要的解釋變量[12-13]。本文選取平均絕對誤差(MAE)作為評價指標,通過交叉驗證得到最優Lambda值,模型MAE與Lambda之間的關系如圖1所示。

 

微信截圖_20180922160501.png

 

圖1中左側虛線是最佳Lambda取值(lambda.min=0.143 065),也就是模型MAE最低時的Lambda取值,此時非零系數的變量個數僅為12個,相比之前37個關鍵詞特征數據已經大幅度地縮減。通過查看coefficients參數可以得到模型的Intercept為5.630 547 963 2,所選取的關鍵詞變量及其所對應的參數估計如表1所示。

 

微信截圖_20180922160551.png

 

至此,本文首先進行關鍵詞的選取及拓展,然后將傳統相關性分析與基于LASSO的特征選擇相結合應用于搜索數據關鍵詞選取,最終選出針對“大眾”品牌汽車的12個網絡搜索數據關鍵特征。使用同樣的方法,篩選得出“本田”及“奧迪”品牌汽車對應的網絡搜索數據關鍵特征分別為12個和13個。

 

2  實驗分析與討論

 

通過LASSO算法的應用有效地解決了解釋變量多重共線性的問題,同時在特征選擇的過程中也得到了LASSO線性回歸模型參數估計,但是該模型及現有研究大都使用基于最小二乘法的線性回歸模型,都無法解決異方差性及解釋變量與被解釋變量非線性關系的問題,這就會增加系數估計值的方差,結果造成系數估計值不穩定,對異常值非常敏感,繼而會嚴重影響回歸線,最終影響預測值的準確度[14]。所以本文又選取了兩種非線性的機器學習算法建立模型并進行詳細的對比分析。

本文選取2011年1月~2016年12月的數據作為訓練集,將2017年12個月的數據作為測試集,采用R語言針對“大眾”、“本田”、“奧迪”品牌汽車的銷量預測建立了支持向量回歸模型及隨機森林模型,按照MAE值最小原則應用網格搜索法(GridSearch)進行模型參數調優,同時針對三個品牌建立傳統的時間序列預測模型——自回歸積分滑動平均模型(ARIMA)進行綜合比較分析。為了有效和直觀地衡量不同模型的預測能力,本文選取均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)兩個指標來評估預測結果,各模型測試集預測結果如表2所示。

 

微信截圖_20180922160645.png

 

從表2可以看出,無論從RMSE還是MAPE來說,機器學習模型的預測效果均有顯著優勢,相比傳統的時間序列ARIMA模型大幅度提高了預測準確度,而且從MAPE指標結果來看,ARIMA模型對于不同品牌汽車銷量預測差異非常大(奧迪比本田高了近15%),機器學習模型預測性能比較穩定。所有模型中性能最優的是隨機森林模型,預測平均誤差為6.4%,比ARIMA模型降低了12.2個百分點,相比文獻[15]、[16]對大眾及奧迪相同品牌汽車月度銷量預測的MAPE分別降低了2.81%和4.63%,預測精度有了顯著提升。從本質上分析,網絡搜索數據與對應品牌汽車銷量之間的關系并不是單純的線性關系,其中非線性關系的程度應該大于線性關系的程度,因而兩種非線性機器學習模型的預測更為精確。

以“大眾”為例展示各模型測試集的預測值與實際值對比如圖2所示。其中可以看出LASOO線性回歸模型(圖(b))及支持向量回歸模型(圖(c))的預測精度明顯優于ARIMA模型(圖(a)),ARIMA模型雖然能夠預測銷量的基本趨勢,但整體預測效果比較差,而且以上三種模型的峰值敏感度都較低,即對峰值的預測誤差均比較大。通過與隨機森林模型(圖(d))進行對比,可以清晰直觀地看出,隨機森林模型與其他模型相比在峰值預測準確度上有明顯差異,顯然隨機森林模型對于峰值和整體預測的結果都更精確。由此可以得出結論,針對汽車品牌粒度的月度銷量預測問題,建立基于網絡搜索數據關鍵特征的隨機森林模型是一種切實可行的方案。

 

 

微信截圖_20180922160750.png

 

3  結論

 

本文以品牌汽車銷量為研究對象,通過關鍵詞的選取及拓展,將相關性分析與基于LASSO的特征選擇相結合,最終篩選出針對不同品牌汽車的網絡搜索數據關鍵特征,在解決多重共線性及減少過擬合的基礎上保留最有效的數據,然后分別建立了傳統時間序列模型及三種機器學習模型,通過對實驗結果進行分析,發現機器學習模型的預測效果均有顯著優勢,其中隨機森林模型預測性能最優。本文提出的基于網絡搜索數據的預測方法可以利用前期網絡搜索數據預測后續汽車銷量,而相應品牌的汽車生產廠商可以根據預測結果及時調整企業的生產和營銷策略。模型的可靠性檢驗及推廣應用是接下來的研究方向。

 

參考文獻

[1] 中國汽車工業協會.中國汽車工業發展年度報告(2016)[M].北京:社會科學文獻出版社,2016.

[2] 黃琦.基于灰色理論的汽車銷售量預測研究[J].機械制造,2013,51(4):78-80.

[3] 胡彥君.ARIMA模型在汽車銷量預測中的應用及SAS實現[J].河北企業,2012(4):11-12.

[4] 王旭天. 基于BP神經網絡的我國汽車銷量預測分析[D].上海:東華大學,2016. 

[5] 袁慶玉,彭賡,劉穎,等.基于網絡關鍵詞搜索數據的汽車銷量預測研究[J].管理學家(學術版),2011(1):12-24.

[6] 孔令頂.基于互聯網搜索量的大眾途觀汽車銷量預測研究[J].時代金融,2015(30):222,226.

[7] 王守中,崔東佳,彭賡.基于Web搜索數據的寶馬汽車銷量預測研究[J].經濟師,2013(12):22-24,26. 

[8] FANTAZZINI D, TOKTAMYSOVA Z. Forecasting german car sales using Google data and multivariate models[J].International Journal of Production Economics,2015,170: 97-135.

[9] 李憶,文瑞,楊立成.網絡搜索指數與汽車銷量關系研究——基于文本挖掘的關鍵詞獲取[J].現代情報,2016,36(8):131-136,177. 

[10] 趙東波. 線性回歸模型中多重共線性問題的研究[D].錦州:渤海大學,2017.

[11] 李鋒,蓋玉潔,盧一強.測量誤差模型的自適應LASSO變量選擇方法研究[J].中國科學:數學,2014,44(9):983-1006.

[12] 劉曉寧.基于Lasso特征選擇的方法比較[J].安徽電子信息職業技術學院學報,2014,13(1):26-30.

[13] 李春紅,吳英,覃朝勇.基于LASSO變量選擇方法的網絡廣告點擊率預測模型研究[J].數理統計與管理,2016,35(5):803-809.

[14] 郭貔,王力,郝元濤.基于LASSO回歸模型與百度搜索數據構建的流感疫情預測系統[J].中國衛生統計,2017,34(2):186-191. 

[15] 崔東佳. 大數據時代背景下的品牌汽車銷量預測的實證研究[D].開封:河南大學,2014.

[16] 田銳鋒.用季節性交乘模型預測奧迪汽車在華銷量[J].統計與管理,2016(8):70-71.

 

(收稿日期:2018-04-03)

 

作者簡介:

謝天保(1966-),男,博士,副教授,主要研究方向:數據挖掘、電子商務與決策支持。

崔田(1991-),通信作者,男,碩士研究生,主要研究方向:數據挖掘、電子商務。E-mail:328348221@qq.com。

 


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
亚洲韩国一区二区三区| 久久久天天操| 91久久嫩草影院一区二区| 日韩视频免费在线| 久久精品av麻豆的观看方式| 亚洲伊人第一页| 在线中文字幕不卡| 99精品国产热久久91蜜凸| 亚洲国产精品成人| 在线精品福利| 在线电影一区| 在线播放中文一区| 一区二区三区在线观看视频| 国产曰批免费观看久久久| 国产精品午夜春色av| 国产精品成人一区二区| 欧美日产一区二区三区在线观看| 免费不卡亚洲欧美| 欧美成年人视频| 欧美成年人视频| 欧美国产欧美亚州国产日韩mv天天看完整| 久久美女性网| 免费成人毛片| 欧美超级免费视 在线| 欧美黄色一区| 欧美精品手机在线| 欧美日韩视频在线观看一区二区三区 | 一本色道久久综合一区| 一区二区激情| 亚洲在线国产日韩欧美| 亚洲精选大片| 一本高清dvd不卡在线观看| 正在播放亚洲| 亚洲欧美三级伦理| 欧美在线一级va免费观看| 久久国产精品久久久久久久久久| 久久久久久久久久久久久久一区 | 国产一区二区精品久久99| 国产自产在线视频一区| 尤物99国产成人精品视频| 亚洲国产精品123| 一区二区三区产品免费精品久久75| 一区二区三区视频免费在线观看 | 一区二区欧美视频| 国产精品久久久久久久浪潮网站| 欧美日韩一区二区三区免费| 国产精品久久久久9999吃药| 国产在线一区二区三区四区 | 欧美在线影院在线视频| 久久久久久久一区| 欧美日本成人| 国产精品夜夜夜| 在线播放豆国产99亚洲| 99re6这里只有精品| 亚洲影院免费观看| 久久精品一级爱片| 亚洲视频专区在线| 亚洲在线观看| 亚洲男人av电影| 激情婷婷亚洲| 亚洲精品影视在线观看| 欧美一区午夜视频在线观看| 性视频1819p久久| 亚洲国产精品高清久久久| 国产精品美女久久久久久免费| 欧美精品一区二| 国产女人18毛片水18精品| 18成人免费观看视频| 亚洲精选大片| 久久久久久亚洲精品杨幂换脸| 欧美一区二区三区视频| 亚洲女ⅴideoshd黑人| 午夜精品www| 亚洲精品日韩在线| 欧美中文字幕在线| 欧美a级片网| 国产精品五区| 亚洲看片网站| 亚洲国产精品一区在线观看不卡 | 亚洲激情校园春色| 久久久久久久久久码影片| 欧美xx69| 国产精品一级| 亚洲精品在线一区二区| 欧美在线资源| 亚洲欧美日韩中文播放| 欧美激情一区在线| 黄色在线一区| 亚洲欧美日韩国产一区| 一区二区日韩免费看| 美国十次了思思久久精品导航| 国产精品毛片a∨一区二区三区|国| 亚洲高清久久| 一区二区三区蜜桃网| 亚洲三级视频| 亚洲欧洲日本一区二区三区| 欧美一区二区高清在线观看| 欧美日韩国产一区| 老司机67194精品线观看| 欧美日韩国产精品一区| 在线成人av| 欧美自拍丝袜亚洲| 欧美在线看片| 国产精品毛片a∨一区二区三区|国| 亚洲精品久久久久中文字幕欢迎你| 久久精品视频亚洲| 久久久久国产成人精品亚洲午夜| 国产精品色在线| 亚洲少妇在线| 亚洲图色在线| 欧美婷婷久久| 亚洲国产一区二区三区在线播| 亚洲高清在线| 午夜国产精品视频| 亚洲一区二区综合| 久久一区中文字幕| 国产精品一区二区你懂得 | 亚洲一区二区三区视频| 亚洲一区二区三区视频| 欧美精品综合| 精品成人a区在线观看| 亚洲欧美日韩成人| 亚洲在线观看视频网站| 久久婷婷激情| 亚洲高清视频一区| 久久精品国产99精品国产亚洲性色| 亚洲一区二区在| 欧美日本国产精品| 亚洲国产婷婷| 亚洲毛片播放| 欧美成人午夜激情在线| 狠狠色狠狠色综合系列| 香蕉久久夜色| 久久国产一区二区三区| 欧美日韩综合视频网址| 亚洲美女av电影| 亚洲欧美国产一区二区三区| 亚洲在线电影| 国产精品久久久亚洲一区| 一区二区三区|亚洲午夜| 午夜精品久久久久久久| 国产精品久久久久久久第一福利| 99国产精品国产精品久久| 一本色道久久综合亚洲精品小说| 欧美激情亚洲自拍| 最新中文字幕亚洲| 亚洲一区亚洲| 国产精品视频精品视频| 亚洲午夜电影网| 性欧美暴力猛交69hd| 国产精品自在欧美一区| 亚洲第一黄色| 美女成人午夜| 亚洲国产一成人久久精品| 亚洲精品国产精品国自产观看| 欧美国产高清| 亚洲香蕉网站| 欧美一区视频在线| 国产在线视频欧美| 亚洲国产精品va在线观看黑人| 久久一区二区三区国产精品 | 亚洲电影免费观看高清完整版在线 | 久久久久天天天天| 国内伊人久久久久久网站视频| 欧美影院成人| 久久国产福利| 亚洲国产精品久久久| 曰韩精品一区二区| 欧美中文在线观看国产| 久久精品一区| 亚洲成人影音| 一区二区三区三区在线| 国产午夜精品全部视频播放 | 午夜精品久久久久久久99樱桃| 狠狠色丁香久久婷婷综合丁香| 久久精品二区亚洲w码| 欧美成人免费va影院高清| 亚洲精选在线| 新67194成人永久网站| 亚洲电影免费观看高清完整版在线观看 | 久久蜜桃精品| 亚洲欧洲一二三| 午夜精品久久久久久久白皮肤| 久久亚洲国产精品一区二区| 亚洲欧洲日本国产| 亚洲三级免费| 国产精品成人国产乱一区| 欧美一区二区大片| 欧美视频中文在线看| 亚洲欧美日本国产专区一区| 久久久水蜜桃| 亚洲精品免费在线| 性色av一区二区三区红粉影视| 亚洲国产精品女人久久久| 亚洲欧美成人一区二区在线电影 | 国产亚洲综合在线| 亚洲精品国产精品乱码不99| 欧美日韩一区二区视频在线 | 欧美成人69av| 欧美综合二区|