數(shù)據(jù)庫內(nèi)容豐富,蘊藏大量信息,可以用來作出智能的商務(wù)決策。分類和預(yù)測是兩種數(shù)據(jù)分析形勢,可以用于提取描述重要數(shù)據(jù)類的模型和預(yù)測未來的數(shù)據(jù)趨勢。
數(shù)據(jù)分類(dataclassfication)是一個兩步過程。第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類集或概念集。通過分析由屬性描述的數(shù)據(jù)庫元組來構(gòu)造模型。假定每個元組屬于一個預(yù)定義的類,由一個稱作類標(biāo)號屬性(classlabelatrribute)的屬性確定。對于分類,數(shù)據(jù)元組也稱作樣本、實例或?qū)ο蟆槟P徒⒍环治龅臄?shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個元組稱作訓(xùn)練樣本,并隨機(jī)地由樣本群選取。由于提供了每個訓(xùn)練樣本的類標(biāo)號,該步也稱作有指導(dǎo)的學(xué)習(xí)(即模型的學(xué)習(xí)在被告知每個訓(xùn)練樣本屬于哪個類的“指導(dǎo)”下進(jìn)行)。它不同于無指導(dǎo)的學(xué)習(xí),那里每個訓(xùn)練樣本的類標(biāo)號是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能事先不知道。
第二步,使用模型進(jìn)行分類。首先評估模型的預(yù)測準(zhǔn)確率。如果模型的準(zhǔn)確率根據(jù)訓(xùn)練數(shù)據(jù)集評估,評估的結(jié)果可能是樂觀的。因此,我們需要選擇獨立于訓(xùn)練集的測試樣本集去評估模型的準(zhǔn)確率。如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對類標(biāo)號未知的數(shù)據(jù)元組或?qū)ο筮M(jìn)行分類。
分類和預(yù)測具有很廣泛的應(yīng)用,包括信譽證實、醫(yī)療診斷、性能預(yù)測和選擇購物等。以下介紹一種數(shù)據(jù)分類的基本技術(shù),決策樹分類模型。
1.什么是決策樹
1.1決策樹的定義:
決策樹(decisiontree)是一個類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示子在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹節(jié)點代表類或者類分布。樹的最頂層節(jié)點是根節(jié)點。我們可以用下圖表示一顆典型的決策樹模型。以下這顆決策樹用來預(yù)測顧客是否可能購買計算機(jī)。
通過以上決策樹示例可以得出幾組規(guī)則,其中一組為:“Age<=30”且“不是student”,則可以推測出:該顧客不可能購買計算機(jī)。決策樹很容易轉(zhuǎn)換成分類規(guī)則。
1.2決策樹的特點:
決策樹算法本身的特點使其適合進(jìn)行屬性數(shù)(特征數(shù))較少情況下的高質(zhì)量分類,因而適用于僅僅利用主題無關(guān)特征進(jìn)行學(xué)習(xí)的關(guān)鍵資源定位任務(wù)。
決策樹算法的核心問題是選取在樹的每個結(jié)點即要測試的屬性,爭取能夠選擇出最有助于分類實例的屬性.為了解決這個問題,ID3算法引入了信息增益的概念,并使用信息增益的多少來決定決策樹各層次上的不同結(jié)點即用于分類的重要屬性。
1.3決策樹的優(yōu)缺點:
優(yōu)點:1)可以生成可以理解的規(guī)則。
2)計算量相對來說不是很大。
3)可以處理多種數(shù)據(jù)類型。
4)決策樹可以清晰的顯示哪些字段較重要。
缺點:1)對連續(xù)性的字段比較難預(yù)測。
2)有時間順序的數(shù)據(jù),要很多預(yù)處理工作。
3)當(dāng)類別太多時,錯誤可能就會增加較快。
2.決策樹經(jīng)典算法ID3介紹
早期著名的決策樹算法是1986年由Quinlan提出的ID3算法。ID3算法運用信息熵理論,選擇當(dāng)前樣本集中最大信息增益的屬性值作為測試屬性;樣本集的劃分則依據(jù)測試屬性的值進(jìn)行,測試屬性有多少不同取值就將樣本集劃分為多少子樣本集,同時,決策樹上相應(yīng)于該樣本集的節(jié)點長出新的葉子節(jié)點。由于決策樹的結(jié)構(gòu)越簡單越能從本質(zhì)的層次上概括事物的規(guī)律,期望非葉節(jié)點到達(dá)后代節(jié)點的平均路徑總是最短,即生成的決策樹的平均深度最小,這就要求在每個節(jié)點選擇好的劃分。
ID3算法的基本原理如下:該算法是一種貪心算法,它以自頂向下遞歸的各個擊破方式構(gòu)造決策樹。算法使用稱為信息增益的基于熵的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性。對測試屬性的每個已知的值,創(chuàng)建一個分枝,并據(jù)此劃分樣本。這種信息理論方法使得一個對象分類所需的期望測試數(shù)目達(dá)到最小,并確保找到一顆簡單的樹。計算每個屬性的信息增益值的方法如下:
設(shè)S是s個數(shù)據(jù)樣本的集合。假定類標(biāo)號屬性具有m個不同值,定義m個不同類Ci(i=1,…m)。設(shè)si是類Ci中的樣本數(shù)。對一個給定的樣本分類所需的期望信息由下式給出:
I(S1,S2,…Sm)iLog2(pi),公式(1)
,其中Pi是任意樣本屬于Ci的概率,并用si/s估計。
又設(shè)屬性A具有v個不同值{a1,a2,…av}。可以用屬性A將S劃分為V個子集{S1,S2,…SV};其中,Sj包含S中這樣一些樣本,它們在A上具有值aj。Sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由A劃分子集的熵或期望信息由下式給出:
E(A)= I(s1j,…smj),公式(2)
由(1)和(2)式,得出在A上分支的信息增益為:

Gain(A)=I(s1,s2,…sm)-E(A)
ID3選擇gain(A)最大,也就是E(A)最小的屬性A作為根結(jié)點,決策樹建好后,就可以生成許多規(guī)則:類似if…then…知識規(guī)則。系統(tǒng)根據(jù)測試內(nèi)節(jié)點的值,推斷出相關(guān)規(guī)則。
愛華網(wǎng)



