《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于C5.0決策樹算法的考試結(jié)果預(yù)測(cè)研究
基于C5.0決策樹算法的考試結(jié)果預(yù)測(cè)研究
潘峰
(國家稅務(wù)總局稅務(wù)干部進(jìn)修學(xué)院,江蘇 揚(yáng)州 225007)
摘要: 隨著終身學(xué)習(xí)體系的逐步構(gòu)建,基于互聯(lián)網(wǎng)的遠(yuǎn)程學(xué)習(xí)模式應(yīng)用不斷普及,各種網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)也不斷累積大量的學(xué)員學(xué)習(xí)和考試方面的數(shù)據(jù)。采用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析,可以充分挖掘網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)存量數(shù)據(jù)的價(jià)值。基于C5.0決策樹算法,采用軟件工具對(duì)研究數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了影響考試結(jié)果的諸多因素及其重要性,可以針對(duì)如何改善學(xué)習(xí)方法、提升學(xué)習(xí)效果、改善平臺(tái)的服務(wù)模式等提出很好的改進(jìn)建議。
Abstract:
Key words :

  潘峰

  (國家稅務(wù)總局稅務(wù)干部進(jìn)修學(xué)院,江蘇 揚(yáng)州 225007)

  摘要:隨著終身學(xué)習(xí)體系的逐步構(gòu)建,基于互聯(lián)網(wǎng)的遠(yuǎn)程學(xué)習(xí)模式應(yīng)用不斷普及,各種網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)也不斷累積大量的學(xué)員學(xué)習(xí)和考試方面的數(shù)據(jù)。采用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析,可以充分挖掘網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)存量數(shù)據(jù)的價(jià)值。基于C5.0決策樹算法,采用軟件工具對(duì)研究數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了影響考試結(jié)果的諸多因素及其重要性,可以針對(duì)如何改善學(xué)習(xí)方法、提升學(xué)習(xí)效果、改善平臺(tái)的服務(wù)模式等提出很好的改進(jìn)建議。

  關(guān)鍵詞:決策樹;考試結(jié)果;預(yù)測(cè)

1網(wǎng)絡(luò)學(xué)習(xí)與考試

  基于Internet的網(wǎng)絡(luò)學(xué)習(xí)是目前比較流行的遠(yuǎn)程學(xué)習(xí)模式,它打破了傳統(tǒng)學(xué)習(xí)的時(shí)空環(huán)境限制,有利于構(gòu)建終身學(xué)習(xí)體系。網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的學(xué)習(xí)內(nèi)容以Web頁面的形式呈現(xiàn),具有費(fèi)用低廉、資源更新快、交互性強(qiáng)等特點(diǎn),學(xué)員可以隨時(shí)隨地安排自己的學(xué)習(xí)時(shí)間,提高學(xué)習(xí)效率。

  網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)除了提供在線學(xué)習(xí)功能,往往還提供隨堂練習(xí)、課程作業(yè)、課程考試等考試功能。對(duì)學(xué)習(xí)者學(xué)習(xí)狀況的評(píng)估將直接影響他們對(duì)網(wǎng)絡(luò)學(xué)習(xí)的態(tài)度、積極性和效果[1]。“學(xué)而時(shí)習(xí)之”,通過網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的考試功能進(jìn)行自我練習(xí)(考試)、參加有組織的考試可以有效促進(jìn)學(xué)員學(xué)習(xí),提高學(xué)習(xí)效果和針對(duì)性。

2決策樹與C5.0算法

  決策樹的分析結(jié)果形似一棵倒置的樹,所以稱為決策樹。決策樹算法是一種逼近離散函數(shù)值的方法[2],它通過構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)涵的分類規(guī)則。決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,構(gòu)造的結(jié)果是一棵二叉樹或多叉樹[3],由上到下依次為根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。決策樹通過對(duì)訓(xùn)練樣本的學(xué)習(xí)建立分類規(guī)則,依據(jù)此規(guī)則實(shí)現(xiàn)對(duì)新樣本的分類,屬于有監(jiān)督的學(xué)習(xí)方法[4]。

  決策樹的類別包括分類決策樹和回歸決策樹,其中,分類決策樹目標(biāo)變量為分類型數(shù)值,其輸出變量的眾數(shù)就是分類結(jié)果。決策樹的分類過程是基于邏輯的,每一個(gè)葉節(jié)點(diǎn)都對(duì)應(yīng)于一條布爾規(guī)則。樹的生長過程(即建立決策樹的過程)就是把數(shù)據(jù)不斷進(jìn)行切分的過程,每一次切分力求分成的各組之間的差異最明顯。各種決策樹算法使用了不同的剪枝策略,它們的主要區(qū)別是對(duì)這種“差異”明顯程度的衡量方式。

  決策樹的構(gòu)建過程是一個(gè)遞歸的過程,所以需要確定停止條件。最直觀的方式是當(dāng)每個(gè)子節(jié)點(diǎn)只有一種類型的記錄時(shí)停止,但往往會(huì)導(dǎo)致過度擬合(樹的節(jié)點(diǎn)太多)。另一種方法是設(shè)置當(dāng)前節(jié)點(diǎn)中的記錄數(shù)最小閾值,將置信度最大的分類作為當(dāng)前葉節(jié)點(diǎn)的分類。

  作為一種分類決策樹模型算法,C5.0可以生成決策樹或規(guī)則集。C5.0算法基于信息增益度分裂方式,第一次拆分確定樣本子集,然后根據(jù)另一個(gè)字段再次拆分,這一過程重復(fù)進(jìn)行直到樣本子集不能被拆分為止[4]。C5.0算法以信息熵的下降速度(能夠帶來最大信息增益的變量)作為確定最佳分支變量和分割閾值的依據(jù)。熵是對(duì)樣本不確定性的一種度量[5]。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。

3C5.0決策樹算法在考試結(jié)果預(yù)測(cè)中的應(yīng)用

  3.1數(shù)據(jù)挖掘工具

  SPSS Clementine是SPSS公司收購取得的數(shù)據(jù)挖掘工具。SPSS Clementine 12.0結(jié)合商業(yè)技術(shù)可以快速建立預(yù)測(cè)性模型,幫助用戶改進(jìn)決策過程。Clementine廣泛支持Kmeans模型、C5.0決策樹、神經(jīng)網(wǎng)絡(luò)等各種預(yù)測(cè)模型。

  3.2數(shù)據(jù)準(zhǔn)備

  本文研究的數(shù)據(jù)對(duì)象為某網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)導(dǎo)出的2015年課程學(xué)習(xí)和課程考試情況數(shù)據(jù)(學(xué)員學(xué)習(xí)課程與考試結(jié)果);數(shù)據(jù)格式為“課程學(xué)習(xí)與考試情況”Excel表;操作系統(tǒng)采用Windows 7 Professional 32 bit;硬件配置:內(nèi)存為4 GB。

  該學(xué)習(xí)平臺(tái)目前擁有注冊(cè)學(xué)員近2 000人,提供標(biāo)準(zhǔn)格式課件點(diǎn)播服務(wù),還提供課程同步模擬考試服務(wù)。“課程學(xué)習(xí)與考試情況”表記錄了用戶學(xué)習(xí)過的課程的次數(shù)、時(shí)間,還記錄了該課程同步模擬考試的結(jié)果,具體字段為“所屬部門”、“用戶名”、“姓名”、“課程名稱”、“考核狀況”、“學(xué)習(xí)次數(shù)”、“學(xué)習(xí)總時(shí)長”,記錄共有18 476條。部分示例如表1所示。

005.jpg

  3.3數(shù)據(jù)處理

001.jpg

  通過對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善,可以使得建立的模型更簡單、準(zhǔn)確[6]。

  為了構(gòu)造新的衍生特征信息,這里增加一個(gè)輸入字段,使用WPS 表格10.1軟件增加“次平均學(xué)習(xí)時(shí)長”列,列值為使用公式計(jì)算學(xué)習(xí)總時(shí)長/學(xué)習(xí)次數(shù)的結(jié)果。

002.jpg

  由于直接使用表格文件,這里無需添加本地?cái)?shù)據(jù)源,在Clementine軟件中直接添加Excel“源”節(jié)點(diǎn),命名為“學(xué)習(xí)考核情況”,導(dǎo)入對(duì)應(yīng)的數(shù)據(jù)文件和工作表。在“過濾”中配置字段篩選,縮小處理范圍,清除無用字段(如“所屬部門”、“用戶名”、“姓名”字段),如圖1所示。預(yù)處理后的總數(shù)據(jù)記錄數(shù)不變(圖1字段過濾數(shù)據(jù)格式如表2所示)。添加“類型”節(jié)點(diǎn)設(shè)置各字段“數(shù)據(jù)類型”和“方向”,“考核狀況”對(duì)應(yīng)“標(biāo)志”類型,“學(xué)習(xí)次數(shù)”對(duì)應(yīng)“集”類型,“次平均學(xué)習(xí)時(shí)長”對(duì)應(yīng)“范圍”類型,如圖2所示。

006.jpg

  通過“重新分類”節(jié)點(diǎn)對(duì)學(xué)習(xí)次數(shù)進(jìn)行規(guī)范化分類,這里根據(jù)數(shù)據(jù)密度分為“1+”、“5+”、“10+”、“30+”,分別代表1≤學(xué)習(xí)次數(shù)圖2數(shù)據(jù)類型≤4、5≤學(xué)習(xí)次數(shù)≤9、10≤學(xué)習(xí)次數(shù)≤29、學(xué)習(xí)次數(shù)≧30,生成新字段名“學(xué)習(xí)總次數(shù)分段”。

  3.4利用C5.0決策樹算法進(jìn)行數(shù)據(jù)挖掘

  繼續(xù)添加一個(gè)C5.0節(jié)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行挖掘,配置目標(biāo)字段“考核情況”,輸入字段為“學(xué)習(xí)總次數(shù)分段”、“次平均學(xué)習(xí)時(shí)長”,“模型”中配置選擇使用分區(qū)數(shù)據(jù),輸出類型為“決策樹”,選擇“組符號(hào)”(使用分箱法檢查當(dāng)前分組變量的各類別能否合并,如果可以先合并再分枝,此方法得到的決策樹相對(duì)精簡),修剪嚴(yán)重性(置信度)設(shè)置為75%,子分支最小記錄數(shù)為200。

003.jpg

  Clementine從讀入數(shù)據(jù)到結(jié)果顯示的數(shù)據(jù)挖掘全過程,是以流程圖的形式顯示在數(shù)據(jù)流程區(qū)內(nèi)的,如圖3所示。每個(gè)節(jié)點(diǎn)規(guī)定了數(shù)據(jù)的不同操作,箭頭表示數(shù)據(jù)流向,各種操作組合起來就形成了通向目標(biāo)的路徑。將前面的節(jié)點(diǎn)相連接,執(zhí)行結(jié)果“考核結(jié)果”會(huì)出現(xiàn)在軟件主界面右上角管理器“模型”中,瀏覽這個(gè)模型可以看到數(shù)據(jù)圖3Clementine數(shù)據(jù)流程區(qū)

  挖掘結(jié)果。需要注意的是,可以對(duì)各節(jié)點(diǎn)添加輸出節(jié)點(diǎn)“表”觀察各節(jié)點(diǎn)數(shù)據(jù)情況(可以將模型結(jié)果添加進(jìn)數(shù)據(jù)流程區(qū)并輸出)。

  針對(duì)實(shí)驗(yàn)數(shù)據(jù)執(zhí)行決策樹模型“考核結(jié)果”,生成規(guī)則集(如圖4所示)和決策樹模型(如圖5所示)。

004.jpg

  3.5考試結(jié)果預(yù)測(cè)模型解讀

  次平均學(xué)習(xí)時(shí)長≤0.17小時(shí)的學(xué)員,“未通過”考試的可能性為88.4%;次平均學(xué)習(xí)時(shí)長>0.17小時(shí)的學(xué)員,通過考試的可能性為81.4%。次平均學(xué)習(xí)時(shí)長≦0.17小時(shí)且學(xué)習(xí)次數(shù)低于5次的學(xué)員,“未通過”考試的可能性為96%;次平均學(xué)習(xí)時(shí)長>0.17小時(shí)且學(xué)習(xí)次數(shù)超過5次的學(xué)員,通過考試的可能性為97.8%。在決定考試是否通過的因素中,“次平均學(xué)習(xí)時(shí)長”最重要,其次是“學(xué)習(xí)次數(shù)”。從實(shí)際經(jīng)驗(yàn)角度看,每次學(xué)習(xí)時(shí)間較長且學(xué)習(xí)次數(shù)較多的學(xué)員,通過考試的概率可能會(huì)較大。根據(jù)該網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的課程學(xué)習(xí)和考試數(shù)據(jù),并使用較為先進(jìn)的Clementine數(shù)據(jù)挖掘軟件構(gòu)建的C5.0決策樹模型,量化反映了網(wǎng)絡(luò)學(xué)習(xí)和考試的這一現(xiàn)象;又由于軟件建模時(shí)采用分區(qū)數(shù)據(jù),提高了模型在不同樣本集上的穩(wěn)健性,因此獲得的預(yù)測(cè)模式較為可信。

  各類網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)可以參考此模型更好地指導(dǎo)學(xué)員在線學(xué)習(xí),有針對(duì)性地提出學(xué)習(xí)建議,如提醒學(xué)員上網(wǎng)學(xué)習(xí)和學(xué)習(xí)次數(shù)等;也可以進(jìn)一步針對(duì)學(xué)員進(jìn)行聚類分析,深度定制課件資源和服務(wù)內(nèi)容,如開發(fā)移動(dòng)客戶端,提高用戶訪問平臺(tái)的便捷性等。

4結(jié)論

  隨著網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的發(fā)展和提升,為更好地貼近用戶需求,深化學(xué)習(xí)效果,應(yīng)當(dāng)關(guān)注業(yè)務(wù)提升需求,充分挖掘海量的學(xué)習(xí)和考試數(shù)據(jù),研究并發(fā)現(xiàn)決定學(xué)習(xí)效果的關(guān)鍵因素。C5.0算法在面對(duì)輸入字段較多的問題時(shí)比較穩(wěn)健,也易于理解,同時(shí)也擅長處理非數(shù)值型數(shù)據(jù),可以在網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)關(guān)鍵問題預(yù)測(cè)中發(fā)揮更大的作用。

參考文獻(xiàn)

  [1] 岳偉.建構(gòu)主義學(xué)習(xí)理論指導(dǎo)下的自學(xué)考試網(wǎng)絡(luò)助學(xué)策略設(shè)計(jì)[J].考試研究,2015(1):915.

  [2] 張軍.數(shù)據(jù)挖掘中自我學(xué)習(xí)算法研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(11):171,173.

  [3] 陳承斌.基于決策樹算法分析惡意網(wǎng)絡(luò)攻擊和入侵[J].信息與電腦(理論版),2010(7):15.

  [4] 陳春茶.數(shù)據(jù)挖掘技術(shù)在移動(dòng)商務(wù)客戶價(jià)值識(shí)別中的應(yīng)用研究[D].昆明:云南大學(xué),2012.

  [5] 宋海霞,嚴(yán)馨,于正濤,等.基于半監(jiān)督主動(dòng)學(xué)習(xí)的虛假評(píng)論檢測(cè)[J].昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,40(5):5965.

  [6] 張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(15):99102.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产在线精品一区二区中文| 亚洲精品一区中文| 欧美成人黑人xx视频免费观看| 香蕉久久夜色精品国产使用方法 | 久久精品视频在线看| 亚洲欧美bt| 亚洲先锋成人| 亚洲一区二区黄色| 亚洲自拍偷拍色片视频| 亚洲午夜激情网页| 亚洲一区二区在线观看视频| 亚洲网站在线看| 亚洲图片在线| 亚洲专区在线| 西西裸体人体做爰大胆久久久| 亚洲欧美日韩精品一区二区| 亚洲综合成人在线| 亚洲欧美综合v| 欧美一区二区女人| 亚洲电影免费观看高清完整版在线| 久久精品毛片| 亚洲日本中文字幕区| 亚洲人成毛片在线播放| 亚洲日本一区二区三区| 99re热这里只有精品免费视频| 日韩一级免费观看| 在线综合视频| 亚洲一区图片| 欧美一区二区日韩| 久久久www| 美日韩精品免费| 欧美第一黄色网| 欧美日韩在线三区| 国产乱码精品一区二区三区忘忧草 | 久久成人免费视频| 久久人人爽国产| 欧美成年人在线观看| 欧美日韩成人在线视频| 国产精品欧美日韩一区二区| 亚洲精品网址在线观看| 一区二区久久久久| 亚洲视频综合在线| 欧美一区二区三区免费视| 久久久久久网| 欧美人在线观看| 国产精品视频成人| 在线免费观看日本欧美| 99国产一区| 久久国产夜色精品鲁鲁99| 亚洲精品一区二区三区蜜桃久| 亚洲天天影视| 久久精品一级爱片| 欧美日韩ab| 国产麻豆9l精品三级站| 影院欧美亚洲| 亚洲天堂成人| 亚洲欧洲久久| 午夜精品一区二区在线观看| 久久天天躁狠狠躁夜夜av| 欧美日韩亚洲一区二区| 国产亚洲精品久久久久久| 亚洲国产视频直播| 午夜精品久久久久久| 亚洲精品美女免费| 亚洲欧美国产高清va在线播| 久久一区中文字幕| 国产精品久久久久久久久动漫 | 日韩一级黄色片| 久久精品99国产精品| 亚洲图片在区色| 麻豆久久久9性大片| 国产精品区一区二区三区| 亚洲第一黄色| 亚洲欧美文学| 一本久久综合亚洲鲁鲁五月天| 欧美综合激情网| 欧美日韩一区二区三区| 国内精品伊人久久久久av影院| 亚洲精品乱码久久久久久蜜桃91| 西瓜成人精品人成网站| 亚洲午夜视频在线| 欧美gay视频| 国产亚洲精品福利| 中文一区二区在线观看| 亚洲美女黄色片| 久久日韩粉嫩一区二区三区| 国产精品视频午夜| 日韩一二三区视频| 亚洲日本aⅴ片在线观看香蕉| 欧美在线视频不卡| 国产精品久久国产愉拍| 亚洲人成在线免费观看| 亚洲高清免费| 久久久久久久久久久久久久一区| 国产精品成人一区二区| 亚洲区免费影片| 亚洲高清在线观看| 久久精品国产亚洲5555| 国产精品地址| 一本色道久久综合亚洲精品高清| 亚洲日本va午夜在线影院| 久久影音先锋| 国产视频久久久久| 亚洲永久免费视频| 亚洲欧美日韩国产一区二区三区| 免费观看国产成人| 精品999网站| 亚洲成人在线视频播放| 亚洲欧美亚洲| 国产精品久久久久99| 日韩一区二区免费高清| 最新日韩在线视频| 老司机aⅴ在线精品导航| 国产偷国产偷精品高清尤物| 亚洲自啪免费| 亚洲欧美综合精品久久成人| 欧美色欧美亚洲另类七区| 日韩视频在线播放| 99视频精品在线| 欧美另类videos死尸| 亚洲三级电影全部在线观看高清| 亚洲最新在线| 欧美日韩视频在线观看一区二区三区 | 在线亚洲精品| 欧美日韩三区四区| 日韩一级免费| 亚洲一品av免费观看| 欧美日韩一区二区三区四区在线观看| 亚洲精品国产精品国产自| 一本色道久久88综合亚洲精品ⅰ| 亚洲精品久久久久中文字幕欢迎你| 久久久999国产| 国产在线一区二区三区四区| 欧美在线观看视频一区二区| 久久精品观看| 激情欧美一区二区三区在线观看| 欧美在线观看日本一区| 美女脱光内衣内裤视频久久网站| 亚洲第一成人在线| 亚洲久久一区| 欧美日韩国产在线看| 99精品视频免费在线观看| 亚洲曰本av电影| 国产九色精品成人porny| 亚洲国产一区二区三区高清| 一区二区三区产品免费精品久久75| 欧美日韩国产欧美日美国产精品| 日韩视频免费看| 亚洲欧美激情四射在线日| 国产精品欧美经典| 日韩视频专区| 欧美亚洲一区二区在线| 国产亚洲一本大道中文在线| 亚洲第一二三四五区| 欧美国产一区二区| 一本色道久久综合狠狠躁篇的优点 | 亚洲欧美激情视频| 国产亚洲永久域名| 亚洲日本成人| 国产精品国产一区二区| 久久www成人_看片免费不卡| 欧美成人免费播放| 99热在这里有精品免费| 欧美怡红院视频| 有码中文亚洲精品| 亚洲视频欧美视频| 国产啪精品视频| 亚洲精品日韩一| 国产麻豆综合| 亚洲三级视频在线观看| 国产精品a久久久久| 欧美与黑人午夜性猛交久久久| 免费高清在线一区| 亚洲深夜福利在线| 久久一区亚洲| 中文日韩欧美| 蜜臀av性久久久久蜜臀aⅴ| 9久re热视频在线精品| 久久成人精品视频| 亚洲国产女人aaa毛片在线| 亚洲一区二区三区涩| 韩国av一区二区三区在线观看| 亚洲精品视频免费观看| 国产精品美女久久久久久2018| 亚洲第一精品电影| 国产精品国产a级| 亚洲激情黄色| 国产精品私人影院| 9色porny自拍视频一区二区| 国产日韩在线看片| 亚洲精品一区在线| 国产丝袜一区二区三区| 一区二区三区视频在线观看| 国产一区二区成人久久免费影院| 99成人精品| 国产在线拍揄自揄视频不卡99 | 欧美午夜不卡视频| 久久se精品一区二区| 久久久一本精品99久久精品66| 一区二区三区 在线观看视|