[筆記] 11/10/13 Data Mining 筆記


今天的上課重點是


授課教授:交通大學 交通運輸研究所 陳穆臻 教授
參考書籍:Introduction to Data Mining, Tan, P. T., Steinbach, M., Kumar,. Vipin


1. Data Warehouse 的概念
2. OLAP ( On-Line Analytical Processing ) 簡介
3. Decision Tree 決策樹
4. Decision Tree 的分類法則




1. Data Warehouse
首先,何謂「Data Warehouse」?
Data Warehouse 中文翻譯是「資料倉儲」,從字面上來看就大概可以略知一二,把大量存放資料的地方,就叫「資料倉儲」。


但很多人會問,這樣跟「DataBase 資料庫」或是「 DBMS(Database Management System)」有什麼不一樣?幹麻還創一個名詞來浪費腦容量!


我們可以從Data Warehouse的四個特點來了解,他到底有什麼不同。


Data Warehouse 四大特點
1. 以主題為導向的 (Subject-Oriented)
 一般來說,Data Warehouse 一直是用來分析某一個領域或是面向。例如:「銷售量」就是一個研究的面向。


2. 資料是整合的 (Integrated)
 Data Warehouse 的資料來源是各式各樣的,可能是SQL、Access、Excel、Oracle等等,所以必需整合這些「異質」的資料。


3. 時間類型 (Time-Variant)
Data Warehouse對於時間是相當重視的,且儲存的都是長久已來的歷史資料,短則一季、長則幾十年以上。


4. 不揮發的、不變動的 (Nonvolatile)
Data Warehouse的資料存入後就不能在移除、更改、變動的。因為歷史資料本來就不該被更動的。


引述:http://www.1keydata.com/datawarehousing/data-warehouse-definition.html


2. OLAP ( On-Line Analytical Processing )
OLAP 中文叫「線上分析處理」,這樣有翻跟沒翻一樣.....
相關介紹可以看wiki的內容 OLAP
總之,他是一個Data Warehouse的分析方法,用的手法有
1. roll up
2. drill down
3. slice
4. dice
5. pivot
6. drill across
7. drill through
所以他的投入源是Data Warehouse龐大的歷史資料,接著用上述的各種手法分割資料,最後產出各式各樣的視覺化圖表給上級長官做決策。


3. Decision Tree 決策樹
決策樹,是一種資料屬性的分類方法,不僅僅可用來建立一個分類模型,還可以當做新資料的預測模式,詳情範例可以參考:WIKI決策樹
決策樹的基本組成有根(ROOT)、節點(Node)、葉(Leaf)




根 (ROOT):就是樹根,完全沒有輸入端的啟始點,有可能沒有或是多個輸出項


節點 (Node):擁有一個輸入項,有一個或者多個以上的輸出項


葉(Leaf):擁有一個輸入項,但沒有任何的輸出項


4. 決策樹演算法(生成樹演算法)
決策樹的分類演算法有下列幾種,所針對的資料與使用的規則也不盡相同
引述:http://140.118.5.28/DataMining_Notes/Lecture_5_Class,predict%20tree,regr.pdf



而評估分類後的結果是好是壞的指標,這邊只介紹 Gini 也就是 CART所用的方法。
GINI公式是
GINISplit公式是
就是給予權重後的個別GINI,再加總起來,而權重就是所佔據的分類比例

舉個例子來說:
今天有兩個分類屬性A與B,要將資料(6,6)在進行切割,兩個屬性分類後的結果是
A:N1(4,3) N2(2,3)
B:N1(1,4) N2(5,2)
A的Gini值是
GiniA N1: 1-[ (4/7)^2 + (3/7)^2 ] = 0.49
GiniA N2: 1-[ (2/5)^2 + (3/5)^2 ] = 0.48
GiniA: (7/12)*0.49 + (5/12)*0.48 = 0.486

B的Gini值是
GiniB N1: 1-[ (1/5)^2 + (4/5)^2 ] = 0.32
GiniB N2: 1-[ (5/7)^2 + (2/7)^2 ] = 0.41
GiniB:(5/12)*0.32 + (7/12)*0.41 = 0.3725

因為GiniB < GiniA,所以決定採用B屬性的作為分類方法

提醒

本站內容即日起將轉到另一站上轉跳~