《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 介紹機器學習分類算法——決策樹

介紹機器學習分類算法——決策樹

2018-07-27

  今天,我們介紹機器學習里比較常用的一種分類算法決策樹。決策樹是對人類認知識別的一種模擬,給你一堆看似雜亂無章的數據,如何用盡可能少的特征,對這些數據進行有效的分類。

  決策樹借助了一種層級分類的概念,每一次都選擇一個區分性最好的特征進行分類,對于可以直接給出標簽 label 的數據,可能最初選擇的幾個特征就能很好地進行區分,有些數據可能需要更多的特征,所以決策樹的深度也就表示了你需要選擇的幾種特征。

  在進行特征選擇的時候,常常需要借助信息論的概念,利用最大熵原則

  決策樹一般是用來對離散數據進行分類的,對于連續數據,可以事先對其離散化。

  在介紹決策樹之前,我們先簡單的介紹一下信息熵,我們知道,熵的定義為:

1.jpg

  我們先構造一些簡單的數據:

  from sklearn import datasets

  import numpy as np

  import matplotlib.pyplot as plt

  import math

  import operator

  def Create_data():

  dataset = [[1, 1, 'yes'],

  [1, 1, 'yes'],

  [1, 0, 'no'],

  [0, 1, 'no'],

  [0, 1, 'no'],

  [3, 0, 'maybe']]

  feat_name = ['no surfacing', 'flippers']

  return dataset, feat_name

  然后定義一個計算熵的函數:

  def Cal_entrpy(dataset):

  n_sample = len(dataset)

  n_label = {}

  for featvec in dataset:

  current_label = featvec[-1]

  if current_label not in n_label.keys():

  n_label[current_label] = 0

  n_label[current_label] += 1

  shannonEnt = 0.0

  for key in n_label:

  prob = float(n_label[key]) / n_sample

  shannonEnt -= prob * math.log(prob, 2)

  return shannonEnt

  要注意的是,熵越大,說明數據的類別越分散,越呈現某種無序的狀態。

  下面再定義一個拆分數據集的函數:

  def Split_dataset(dataset, axis, value):

  retDataSet = []

  for featVec in dataset:

  if featVec[axis] == value:

  reducedFeatVec = featVec[:axis]

  reducedFeatVec.extend(featVec[axis+1 :])

  retDataSet.append(reducedFeatVec)

  return retDataSet

  結合前面的幾個函數,我們可以構造一個特征選擇的函數:

  def Choose_feature(dataset):

  num_sample = len(dataset)

  num_feature = len(dataset[0]) - 1

  baseEntrpy = Cal_entrpy(dataset)

  best_Infogain = 0.0

  bestFeat = -1

  for i in range (num_feature):

  featlist = [example[i] for example in dataset]

  uniquValus = set(featlist)

  newEntrpy = 0.0

  for value in uniquValus:

  subData = Split_dataset(dataset, i, value)

  prob = len(subData) / float(num_sample)

  newEntrpy += prob * Cal_entrpy(subData)

  info_gain = baseEntrpy - newEntrpy

  if (info_gain > best_Infogain):

  best_Infogain = info_gain

  bestFeat = i

  return bestFeat

  然后再構造一個投票及計票的函數

  def Major_cnt(classlist):

  class_num = {}

  for vote in classlist:

  if vote not in class_num.keys():

  class_num[vote] = 0

  class_num[vote] += 1

  Sort_K = sorted(class_num.iteritems(),

  key = operator.itemgetter(1), reverse=True)

  return Sort_K[0][0]

  有了這些,就可以構造我們需要的決策樹了:

  def Create_tree(dataset, featName):

  classlist = [example[-1] for example in dataset]

  if classlist.count(classlist[0]) == len(classlist):

  return classlist[0]

  if len(dataset[0]) == 1:

  return Major_cnt(classlist)

  bestFeat = Choose_feature(dataset)

  bestFeatName = featName[bestFeat]

  myTree = {bestFeatName: {}}

  del(featName[bestFeat])

  featValues = [example[bestFeat] for example in dataset]

  uniqueVals = set(featValues)

  for value in uniqueVals:

  subLabels = featName[:]

  myTree[bestFeatName][value] = Create_tree(Split_dataset

  (dataset, bestFeat, value), subLabels)

  return myTree

  def Get_numleafs(myTree):

  numLeafs = 0

  firstStr = myTree.keys()[0]

  secondDict = myTree[firstStr]

  for key in secondDict.keys():

  if type(secondDict[key]).__name__ == 'dict' :

  numLeafs += Get_numleafs(secondDict[key])

  else:

  numLeafs += 1

  return numLeafs

  def Get_treedepth(myTree):

  max_depth = 0

  firstStr = myTree.keys()[0]

  secondDict = myTree[firstStr]

  for key in secondDict.keys():

  if type(secondDict[key]).__name__ == 'dict' :

  this_depth = 1 + Get_treedepth(secondDict[key])

  else:

  this_depth = 1

  if this_depth > max_depth:

  max_depth = this_depth

  return max_depth

  我們也可以把決策樹繪制出來:

  def Plot_node(nodeTxt, centerPt, parentPt, nodeType):

  Create_plot.ax1.annotate(nodeTxt, xy=parentPt,

  xycoords='axes fraction',

  xytext=centerPt, textcoords='axes fraction',

  va=center, ha=center, bbox=nodeType, arrowprops=arrow_args)

  def Plot_tree(myTree, parentPt, nodeTxt):

  numLeafs = Get_numleafs(myTree)

  Get_treedepth(myTree)

  firstStr = myTree.keys()[0]

  cntrPt = (Plot_tree.xOff + (1.0 + float(numLeafs))/2.0/Plot_tree.totalW,

  Plot_tree.yOff)

  Plot_midtext(cntrPt, parentPt, nodeTxt)

  Plot_node(firstStr, cntrPt, parentPt, decisionNode)

  secondDict = myTree[firstStr]

  Plot_tree.yOff = Plot_tree.yOff - 1.0/Plot_tree.totalD

  for key in secondDict.keys():

  if type(secondDict[key]).__name__=='dict':

  Plot_tree(secondDict[key],cntrPt,str(key))

  else:

  Plot_tree.xOff = Plot_tree.xOff + 1.0/Plot_tree.totalW

  Plot_node(secondDict[key], (Plot_tree.xOff, Plot_tree.yOff),

  cntrPt, leafNode)

  Plot_midtext((Plot_tree.xOff, Plot_tree.yOff), cntrPt, str(key))

  Plot_tree.yOff = Plot_tree.yOff + 1.0/Plot_tree.totalD

  def Create_plot (myTree):

  fig = plt.figure(1, facecolor = 'white')

  fig.clf()

  axprops = dict(xticks=[], yticks=[])

  Create_plot.ax1 = plt.subplot(111, frameon=False, **axprops)

  Plot_tree.totalW = float(Get_numleafs(myTree))

  Plot_tree.totalD = float(Get_treedepth(myTree))

  Plot_tree.xOff = -0.5/Plot_tree.totalW; Plot_tree.yOff = 1.0;

  Plot_tree(myTree, (0.5,1.0), '')

  plt.show()

  def Plot_midtext(cntrPt, parentPt, txtString):

  xMid = (parentPt[0] - cntrPt[0]) / 2.0 + cntrPt[0]

  yMid = (parentPt[1] - cntrPt[1]) / 2.0 + cntrPt[1]

  Create_plot.ax1.text(xMid, yMid, txtString)

  def Classify(myTree, featLabels, testVec):

  firstStr = myTree.keys()[0]

  secondDict = myTree[firstStr]

  featIndex = featLabels.index(firstStr)

  for key in secondDict.keys():

  if testVec[featIndex] == key:

  if type(secondDict[key]).__name__ == 'dict' :

  classLabel = Classify(secondDict[key],featLabels,testVec)

  else:

  classLabel = secondDict[key]

  return classLabel

  最后,可以測試我們的構造的決策樹分類器:

  decisionNode = dict(boxstyle=sawtooth, fc=0.8)

  leafNode = dict(boxstyle=round4, fc=0.8)

  arrow_args = dict(arrowstyle=-)

  myData, featName = Create_data()

  S_entrpy = Cal_entrpy(myData)

  new_data = Split_dataset(myData, 0, 1)

  best_feat = Choose_feature(myData)

  myTree = Create_tree(myData, featName[:])

  num_leafs = Get_numleafs(myTree)

  depth = Get_treedepth(myTree)

  Create_plot(myTree)

  predict_label = Classify(myTree, featName, [1, 0])

  print(the predict label is: , predict_label)

  print(the decision tree is: , myTree)

  print(the best feature index is: , best_feat)

  print(the new dataset: , new_data)

  print(the original dataset: , myData)

  print(the feature names are: , featName)

  print(the entrpy is:, S_entrpy)

  print(the number of leafs is: , num_leafs)

  print(the dpeth is: , depth)

  print(All is well.)

  構造的決策樹最后如下所示:

2.jpg


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美a一区二区| 国产精品狠色婷| 亚洲综合电影一区二区三区| 亚洲美女中文字幕| 久久精品国产清高在天天线 | 亚洲欧美日韩国产综合在线| 一区二区日本视频| av不卡在线| 亚洲精选一区| 亚洲精选中文字幕| 亚洲黑丝在线| 91久久在线视频| 亚洲国产日韩一区| 久久国产福利| 久久精品一二三| 亚洲电影欧美电影有声小说| 久久精品91| 久久国产精品一区二区三区四区| 欧美一区二区大片| 欧美一区二区三区男人的天堂 | 欧美在线短视频| 久久成人精品无人区| 香蕉精品999视频一区二区| 亚洲欧美激情诱惑| 香蕉av福利精品导航| 欧美一区二区三区日韩| 欧美中文字幕在线播放| 香蕉成人啪国产精品视频综合网| 欧美亚洲三区| 亚洲高清视频中文字幕| 91久久在线观看| 夜夜嗨av色一区二区不卡| 一本在线高清不卡dvd| 在线视频你懂得一区| 亚洲制服av| 欧美一级免费视频| 久久国内精品视频| 免费观看30秒视频久久| 欧美韩国在线| 欧美日韩一本到| 国产精品美女久久久浪潮软件| 国产美女扒开尿口久久久| 国产欧美一区二区三区在线老狼 | 久久动漫亚洲| 亚洲欧洲日产国产综合网| 日韩亚洲精品电影| 亚洲自拍三区| 久久精品国产欧美激情| 久久综合999| 欧美日韩国产黄| 国产精品久久久久久久久久直播 | 国内精品美女在线观看| 亚洲激情成人| 亚洲永久在线观看| 亚洲国产高清高潮精品美女| 夜夜爽99久久国产综合精品女不卡| 亚洲免费小视频| 久久香蕉国产线看观看av| 欧美理论在线播放| 国产美女在线精品免费观看| 在线观看日韩一区| 宅男噜噜噜66一区二区66| 小黄鸭精品密入口导航| 亚洲精品色婷婷福利天堂| 亚洲免费在线电影| 久久综合久色欧美综合狠狠| 欧美视频不卡中文| 国产一区二区丝袜高跟鞋图片| 亚洲国产一区二区三区青草影视 | 亚洲欧美日韩在线综合| 91久久在线| 亚洲欧美日韩在线播放| 免费不卡中文字幕视频| 国产精品v欧美精品v日韩| 一区二区视频免费完整版观看| 一区二区三区**美女毛片| 久久精彩免费视频| 亚洲男人第一网站| 欧美大片国产精品| 国产日产欧产精品推荐色 | 亚洲三级影院| 欧美影院午夜播放| 亚洲性线免费观看视频成熟| 久久这里只有| 国产精品视频久久一区| 亚洲国产日日夜夜| 欧美一区二区三区四区在线观看| 一区二区三区视频免费在线观看| 久久久成人精品| 国产精品99一区二区| 在线看无码的免费网站| 午夜亚洲精品| 亚洲免费影院| 欧美日韩亚洲免费| 在线看日韩av| 久久se精品一区二区| 午夜精品久久久99热福利| 欧美精品乱人伦久久久久久 | 亚洲国产成人精品女人久久久| 欧美一区二区三区的| 欧美日韩在线精品| 亚洲欧洲日本国产| 亚洲国产成人在线| 久久久久久久久久久成人| 国产精品久久久久久亚洲调教| 亚洲精品欧美一区二区三区| 亚洲国产成人久久综合一区| 久久精品99国产精品日本| 国产精品久久久久秋霞鲁丝| 亚洲美女中文字幕| 亚洲精选中文字幕| 蜜臀av在线播放一区二区三区| 国产一区二区| 亚洲欧美精品一区| 亚洲欧美视频在线观看| 欧美亚洲成人精品| 夜色激情一区二区| 日韩一区二区久久| 欧美国产三级| 亚洲国产欧美在线| 亚洲精品黄色| 欧美国产日韩免费| 亚洲人成人77777线观看| 亚洲国产精品va在线观看黑人 | 欧美午夜精品理论片a级按摩| 国产精品一区2区| 制服诱惑一区二区| 亚洲一区免费网站| 国产精品美女| 亚洲一区二区欧美| 欧美一区成人| 国产欧美一区二区三区沐欲| 午夜精品久久久久久久久久久| 欧美在线观看天堂一区二区三区| 国产欧美日韩视频一区二区三区| 午夜精品福利视频| 久久久久se| 1000部精品久久久久久久久| 亚洲精品国产精品乱码不99| 欧美国产一区视频在线观看| 亚洲精品专区| 亚洲欧美国产77777| 国产精品亚洲美女av网站| 亚洲欧美日韩精品在线| 欧美一区二区三区在线视频| 国产一区二区精品久久| 亚洲国产裸拍裸体视频在线观看乱了中文 | 国产日韩精品在线| 久久精品二区三区| 蜜臀av性久久久久蜜臀aⅴ四虎| 亚洲国产成人tv| 亚洲无线一线二线三线区别av| 国产精品久久久久永久免费观看 | 日韩亚洲不卡在线| 亚洲欧美日韩综合aⅴ视频| 国产精品尤物福利片在线观看| 欧美一区二区三区精品| 猫咪成人在线观看| 亚洲精品免费电影| 亚洲欧美自拍偷拍| 国模吧视频一区| 日韩视频―中文字幕| 国产精品v欧美精品∨日韩| 欧美一区二区高清| 欧美激情乱人伦| 在线中文字幕日韩| 久久久久国产精品人| 亚洲精品在线观看视频| 性久久久久久久久| 亚洲国产一区二区三区高清| 欧美一区二区视频在线观看2020| 亚洲国产日韩欧美在线99| 欧美伊人久久| 亚洲破处大片| 久久久久国产精品一区三寸| 亚洲日韩欧美视频一区| 欧美在线欧美在线| 亚洲毛片网站| 久久综合九色九九| 亚洲视频一区二区免费在线观看| 久久蜜桃av一区精品变态类天堂| 夜夜嗨网站十八久久| 久久人人爽爽爽人久久久| 在线视频亚洲| 欧美成人一区二免费视频软件| 亚洲一品av免费观看| 欧美激情在线| 久久精品论坛| 国产伦理一区| 亚洲一级特黄| 在线精品一区| 欧美在线视频播放| 一区二区国产日产| 欧美不卡高清| 久久不见久久见免费视频1| 国产精品盗摄久久久| 亚洲高清毛片| 国产欧美日韩在线视频| 这里只有视频精品| 一区二区三区我不卡|