最近讀了 jiawei han , micheline kamber 所著的數(shù)據(jù)挖掘概念與技一書,以下為總結(jié):
第一. 概述
一.挖掘來源:
1. 關(guān)系數(shù)據(jù)庫
2. 數(shù)據(jù)倉庫
3. 事務(wù)數(shù)據(jù)庫

說明:包含唯一事務(wù)標(biāo)識(shí)號(hào)和組成該事務(wù)的項(xiàng)的列表(如,商店購買的產(chǎn)品)。
事務(wù)id | 商品id 的列表 |
T100 | I1, i3 , i8, i16 |
T200 | I2, i8 |
… | … |
由上表看,是個(gè)嵌套關(guān)系,大部分關(guān)系數(shù)據(jù)庫不支持嵌套關(guān)系結(jié)構(gòu),事務(wù)數(shù)據(jù)庫通常存放在類似上表結(jié)構(gòu)的表格中,或以外鍵的形式存于關(guān)系表中,可以發(fā)現(xiàn)這是關(guān)聯(lián)規(guī)則挖掘的恰當(dāng)數(shù)據(jù)源。
4. 高級(jí)數(shù)據(jù)庫
對(duì)象-關(guān)系數(shù)據(jù)庫 時(shí)間序列數(shù)據(jù)庫空間數(shù)據(jù)庫 文本數(shù)據(jù)庫 多媒體數(shù)據(jù)庫
異構(gòu)數(shù)據(jù)庫 多媒體數(shù)據(jù)庫 萬維網(wǎng)
二.?dāng)?shù)據(jù)挖掘主要功能
1.特征化和區(qū)分
類似olap ,對(duì)數(shù)據(jù)初步整理匯總。
2.關(guān)聯(lián)規(guī)則
3.分類和預(yù)測(cè)
4.聚類分析
5.離群點(diǎn)分析
6.演變分析
三.涉及學(xué)科
數(shù)據(jù)庫技術(shù) 統(tǒng)計(jì)學(xué) 機(jī)器學(xué)習(xí) 信息科學(xué) 可視化
第二部分。 數(shù)據(jù)預(yù)處理(十分重要)
說明:數(shù)據(jù)預(yù)處理在挖掘中占有舉足輕重的地位,沒有好的數(shù)據(jù)就沒有好的挖掘。
一.描述性數(shù)據(jù)匯總
1. 度量數(shù)據(jù)的中心趨勢(shì)
均值中列數(shù)(最大與最小值的平均)中位數(shù)(按次序排中間的數(shù)) 眾數(shù)(出現(xiàn)概率最多的數(shù))
2. 度量數(shù)據(jù)的離散程度
極差 四分位數(shù) 離群點(diǎn) 盒圖
方差 標(biāo)準(zhǔn)差 直方圖 分位數(shù)圖 散點(diǎn)圖
總之:描述性數(shù)據(jù)匯總提供了數(shù)據(jù)總體行為的有價(jià)值的洞察。通過幫助識(shí)別噪聲和離群點(diǎn),他們對(duì)于數(shù)據(jù)清理十分有用。
二.?dāng)?shù)據(jù)清理
1. 缺失值
忽略 人工填寫使用均值 使用同一類的均值
使用最可能的均值(利用回歸 決策樹等方法來估計(jì)值)
2. 噪聲數(shù)據(jù)
分箱回歸 聚類
三.?dāng)?shù)據(jù)集成和變換
光滑 聚集 數(shù)據(jù)泛化 規(guī)范化 屬性構(gòu)造
四.?dāng)?shù)據(jù)規(guī)約
數(shù)據(jù)立方體聚集 屬性自己選擇 維規(guī)約 數(shù)值規(guī)約
五.?dāng)?shù)據(jù)離散化和概念分層
1. 數(shù)值數(shù)據(jù)離散化和概念分層
分箱 直方圖 基于熵基于x2 分析的期間合并 聚類分析 根據(jù)3-4-5法
2. 分類數(shù)據(jù)的概念分層
第三部分。數(shù)據(jù)倉庫
一.多維數(shù)據(jù)模型
星型 雪花型 事實(shí)星座型
二.Olap 操作
上卷 下鉆 切片 切塊
第四部分。關(guān)聯(lián)規(guī)則
支持度 置信度 (這兩個(gè)概念是關(guān)聯(lián)規(guī)則的核心)
關(guān)聯(lián)規(guī)則的挖掘:1。找到頻繁項(xiàng)集(由支持度控制)
2. 窮舉頻繁項(xiàng)集的所有關(guān)聯(lián)規(guī)則,選擇置信度大的作為規(guī)則。
強(qiáng)關(guān)聯(lián)規(guī)則并不一定是有趣的,因此需要多種指標(biāo)來共同分析:比如 全置信度,余弦,提升度,χ²等。
基于約束的挖掘可以顯著提高挖掘效率,節(jié)省時(shí)間和空間開銷
第五部分。分類和預(yù)測(cè)
有指導(dǎo)和無指導(dǎo)學(xué)習(xí)
決策樹算法:了解通過信息增益選擇最優(yōu)屬性剪枝 sliq 和 sprint算法考慮了io操作,可以處理幾百萬條以上的數(shù)據(jù)。(事實(shí)上對(duì)于處理大規(guī)模的數(shù)據(jù)的算法都需要考慮磁盤io,因?yàn)閮?nèi)存容量不可能滿足)
第六部分。聚類分析
相異度:聚類算法的基礎(chǔ)。
標(biāo)度變量:
歐幾里得距離:
曼哈頓距離:
民科夫斯基距離:
二元變量
D(I,j)=r+s/q+r+s
分母為總數(shù),分子為不同值的個(gè)數(shù)。
分類變量:
D(I,j)= p-m/p
P為總數(shù),m為相同屬性的個(gè)數(shù)。
序數(shù)變量 比例標(biāo)度變量混合類型變量 向量對(duì)象等的相異度 (沒有看懂
聚類方法:
劃分方法 層次方法基于密度的方法 基于網(wǎng)格的方法基于模型的方法 聚類高維數(shù)據(jù) 基于約束的聚類
愛華網(wǎng)

