[筆記] Weka 強大的資料探勘軟體 -- 前處理篇


Weka 一套強而有力的資料探勘軟體

包含數十種資料探勘常用的演算法,短短15分鐘就可以學會了!

PS:在學這個軟體之前,請先擁有資料探勘演算法的基本概念

Weka 一套來自於 紐西蘭 懷卡託大學的免費資料探勘軟體



請依照自己的作業系統安裝適合的版本

這邊,只會介紹Explorer(因為我也只會這個啦 XD)

請點開 Explorer,會看到操作介面


這邊可以看到,Weka提供了 下面功能:

前處理(Preprocess)

分類法則(Classify)
叢集(Cluster)
關連分析(Associate)
屬性篩選(Select attributes)
視覺化(Visualize)

一開始一定要先經過前處理這一段,導入我們需要分析的資料

注意:
如果你是Excel檔案的話,記得轉存成CSV(逗點分割)
另外,第一行記得要給欄位名稱喔!

導入後你就可以看到很酷的基本資料分析,這邊採用內建的Iris資料庫

資料集的基本資料

資料的屬性列表
可以勾選屬性,然後刪除(Remove)

有每個屬性的敘述性統計
注意:Weka只有分:類別尺度、數字型、字串型 三種資料型態

每個屬性在的分類狀況

前處理區最特別的區塊就是過濾(Filter)
點一下選擇(Choose)
可以看到一票的過濾方式,也就是前處理啦!
這裡頭有兩個會常用的的預先處理方式
Normalize():將連續型的資料進行標準化 
Discretize():用MDL(Minimum Description Length)方法,將連續型資料離散化


以上為Weka前處理的基本介紹

提醒

本站內容即日起將轉到另一站上轉跳~