精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

Python數(shù)據(jù)科學(xué)：決策樹

人閱讀
2019-04-15 12:10:19
相關(guān)關(guān)鍵詞
- 人工智能
- AI

決策樹呈樹形結(jié)構(gòu)，是一種基本的回歸和分類方法。

決策樹模型的優(yōu)點(diǎn)在于可讀性強(qiáng)、分類速度快。

下面通過從「譯學(xué)館」搬運(yùn)的兩個視頻，來簡單了解下決策樹。

最后來實(shí)戰(zhàn)一波，建立一個簡單的決策樹模型。

／ 01 ／決策樹算法

本次主要涉及兩類決策樹，Quinlan系列決策樹和CART決策樹。

前者涉及的算法包括ID3算法、C4．5算法及C5．0算法，后者則是CART算法。

前者一系列算法的步驟總體可以概括為建樹和剪樹。

在建樹步驟中，首先選擇最有解釋力度的變量，接著對每個變量選擇最優(yōu)的分割點(diǎn)進(jìn)行剪樹。

剪樹，去掉決策樹中噪音或異常數(shù)據(jù)，在損失一定預(yù)測精度的情況下，能夠控制決策樹的復(fù)雜度，提高其泛化能力。

在剪樹步驟中，分為前剪枝和后剪枝。

前剪枝用于控制樹的生成規(guī)模，常用方法有控制決策樹最大深度、控制樹中父結(jié)點(diǎn)和子結(jié)點(diǎn)的最少樣本量或比例。

后剪枝用于刪除沒有意義的分組，常用方法有計(jì)算結(jié)點(diǎn)中目標(biāo)變量預(yù)測精度或誤差、綜合考慮誤差與復(fù)雜度進(jìn)行剪樹。

此外在ID3算法中，使用信息增益挑選最有解釋力度的變量。

其中信息增益為信息熵減去條件熵得到，增益越大，則變量的影響越大。

C4．5算法則是使用信息增益率作為變量篩選的指標(biāo)。

CART算法可用于分類或數(shù)值預(yù)測，使用基尼系數(shù)（gini）作為選擇最優(yōu)分割變量的指標(biāo)。

／ 02／ Python實(shí)現(xiàn)

慣例，繼續(xù)使用書中提供的數(shù)據(jù)。

一份汽車違約貸款數(shù)據(jù)集。

讀取數(shù)據(jù)，并對數(shù)據(jù)進(jìn)行清洗處理。

import os

import pydotplus

import numpy as np

import pandas as pd

import sklearn．tree as tree

import matplotlib．pyplot as plt

from IPython．display import Image

import sklearn．metrics as metrics

from sklearn．tree import DecisionTreeClassifier

from sklearn．model＿selection import train＿test＿split， ParameterGrid， GridSearchCV

＃消除pandas輸出省略號情況

pd．set＿option（＇display．max＿columns＇， None）

＃設(shè)置顯示寬度為1000，這樣就不會在IDE中換行了

pd．set＿option（＇display．width＇， 1000）

＃讀取數(shù)據(jù)，skipinitialspace：忽略分隔符后的空白

accepts ＝ pd．read＿csv（＇accepts．csv＇， skipinitialspace＝True）

＃ dropna：對缺失的數(shù)據(jù)進(jìn)行刪除

accepts ＝ accepts．dropna（axis＝0， how＝＇any＇）

＃因變量，是否違約

target ＝ accepts［＇bad＿ind＇］

＃自變量

data ＝ accepts．ix［：，＇bankruptcy＿ind＇：＇used＿ind＇］

＃業(yè)務(wù)處理，loan＿amt：貸款金額，tot＿income：月均收入

data［＇lti＿temp＇］＝ data［＇loan＿amt＇］／ data［＇tot＿income＇］

data［＇lti＿temp＇］＝ data［＇lti＿temp＇］．map（lambda x： 10 if x ＞＝ 10 else x）

＃刪除貸款金額列

del data［＇loan＿amt＇］

＃替換曾經(jīng)破產(chǎn)標(biāo)識列

data［＇bankruptcy＿ind＇］＝ data［＇bankruptcy＿ind＇］．replace（｛＇N＇： 0，＇Y＇： 1｝）

接下來使用scikit－learn將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。

＃使用scikit－learn將數(shù)據(jù)集劃分為訓(xùn)練集和測試集

train＿data， test＿data， train＿target， test＿target ＝ train＿test＿split（data， target， test＿size＝0．2， train＿size＝0．8， random＿state＝1234）

初始化一個決策樹模型，使用訓(xùn)練集進(jìn)行訓(xùn)練。

采用基尼系數(shù)作為樹的生長依據(jù)，樹的最大深度為3，每一類標(biāo)簽的權(quán)重一樣。

＃初始化一個決策樹模型

clf ＝ DecisionTreeClassifier（criterion＝＇gini＇， max＿depth＝3， class＿weight＝None， random＿state＝1234）

＃輸出決策樹模型信息

print（clf．fit（train＿data， train＿target））

輸出的模型信息如下。

對生成的決策樹模型進(jìn)行評估。

＃輸出決策樹模型的決策類評估指標(biāo)

print（metrics．classification＿report（test＿target， clf．predict（test＿data）））

＃對不同的因變量進(jìn)行權(quán)重設(shè)置

clf．set＿params（＊＊｛＇class＿weight＇：｛0： 1， 1： 3｝｝）

clf．fit（train＿data， train＿target）

＃輸出決策樹模型的決策類評估指標(biāo)

print（metrics．classification＿report（test＿target， clf．predict（test＿data）））

＃輸出決策樹模型的變量重要性排序

print（list（zip（data．columns， clf．feature＿importances＿）））

輸出如下。

可以看出對因變量標(biāo)簽進(jìn)行權(quán)重設(shè)置后，模型對違約用戶的f1－score（精確率和召回率的調(diào)和平均數(shù)）提高了，為0．46。

違約用戶被識別的靈敏度也從0．24提高到了0．46。

此外決策樹模型的變量重要性排序?yàn)椤窮ICO打分」、「信用卡授權(quán)額度」、「貸款金額／建議售價＊100」。

12下一頁>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機(jī)器學(xué)習(xí) 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI Akamai AI人工智能昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 百度AI 科大訊飛AI學(xué)習(xí)機(jī) AI手機(jī) CAICT 阿爾法蛋AI詞典筆T10 微軟AI 華為AI AI+ 松鼠AI AI模型昇騰AI創(chuàng)新大賽 AIS Airdoc xAI WAIC 智譜AI AITO 京東AI 阿爾法蛋AI詞典筆 SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會 LIFAair AI機(jī)器人 AI應(yīng)用人工智能大會 AI眼鏡 AI算力 AI創(chuàng)企移動AI時代 AI醫(yī)療浙大AIF 人工智能技術(shù) Zain AI人才 Airtag 人工智能芯片 AI服務(wù)器 AI投資 AI時代騰訊AI AI算法 BrainCo AI教育 AI框架聯(lián)想AI Gmail 人工智能計(jì)算中心 Airwallex空中云匯 VAIO AI賦能人工智能大賽 Chain Coremail AI搜索 OPENAIGC開發(fā)者大賽谷歌人工智能 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 Mirai 人工智能名片人工智能機(jī)器人 AI基礎(chǔ)設(shè)施 AI聊天機(jī)器人阿里AI AI音樂 BrainCo強(qiáng)腦科技通用人工智能人工智能+ AI計(jì)算英偉達(dá)AI芯片 AI助手 AIOps

上一篇

精細(xì)手工活這個機(jī)器人也會干

下一篇

ITECH直流電源在人工智能領(lǐng)域的應(yīng)用

簡版
原版
投稿
回頂部

2019-04-15

Python數(shù)據(jù)科學(xué)：決策樹

決策樹呈樹形結(jié)構(gòu)，是一種基本的回歸和分類方法。決策樹模型的優(yōu)點(diǎn)在于可讀性強(qiáng)、分類速度快。下面通過從「譯學(xué)館」搬運(yùn)的兩個視頻，來簡單了解下決策樹。最后來實(shí)戰(zhàn)一波，建立一個簡單的決策樹模型。

長按掃碼閱讀全文