2. Data Mining

 一、前言 

資料發掘的工作(Data Mining)是近年來資料庫應用領域中,相當熱門的議題。Data Mining使用的分析方法,如預測模型(迴歸、時間數列)、資料庫分割(Database Segmentation)、連接分析(Link Analysis)、偏差偵測(Deviation Detection)等;美國政府從第二次世界大戰前,就在人口普查以及軍事方面使用這些技術,隨著資訊科技的快速發展,新工具的出現,例如關連式資料庫、物件導向資料庫、柔性計算理論(包括Neural networkFuzzy theoryGenetic AlgorithmsRough Set等)、人工智慧的應用(如知識工程、專家系統),以及網路通訊技術的發展,使從資料堆中挖掘超越歸納範圍關係的資訊成為成為企業智慧的一部份。         

二、Data Mining簡介 

Data Mining,中文譯為資料探勘,指的是從大量的資料中自動搜索找尋隱藏於其中之的有著特殊關聯性的知識的過程Data Mining是資料庫知識發現(Knowledge Discovery in Databases, KDD)中的一個步驟,也有人稱為「資料考古學」(Data Archaeology)、「資料樣型分析」(Data Pattern Analysis)或「功能相依分析」(Functional Dependency Analysis)。 

Knowledge Discovery 的過程對 Data Mining 的應用成功與否有重要的影響,只有它才能確保 Data Mining 能獲得有意義的結果。根據Fayyad 等人對KDD的定義:「The nontrivial Process of identifying validnovelpotentially useful , and ultimately understandable patterns in data」,原始資料經過以下五個流程步驟後才能成為有用的知識:

1.          Selection:先理解要應用的領域、熟悉相關知識,接著建立目標資料集,並專注所選擇之資料子集。 

2.          Pre-processing:再從目的資料中作前置處理,去除錯誤或不一致的資料 

3.          Transformation:資料簡化與轉換工作 

4.          Data Mining:將資料形成樣型(Patterns)、做回歸分析或找出分類型態 

5.          Interpretation/ Evaluation:評估與解釋資料


另外,根據Glymour等人的研究,提出另一個參考的KDD進行步驟如下:

1.          理解資料與進行的工作 

2.          獲取相關知識與技術(Acquisition 

3.          融合與查核資料(Integration and checking 

4.          去除錯誤或不一致的資料(Data cleaning 

5.          發展模式與假設(Model and hypothesis development 

6.          實際資料挖掘工作 

7.          測試與檢核所挖掘的資料(Testing and verfication 

8.          解釋與使用資料(Interpretation and use

由以上兩個流程來看,KDD是一連串的程序,Data Mining是其中的一個步驟而已。Data Mining牽涉大量的規劃與準備,有專家聲稱高達80%的過程花在準備資料階段,這包括表格的Join以及可能相當大量的資料轉換。Data Mining只是知識發掘過程中的一個步驟而已,而達到這個步驟前還有許許多多的工作要完成。

資料倉儲是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上處理系統(OLTP)所得來的資料。將這些整合過的資料置放於資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉儲最大的挑戰。因為將作業中的資料轉換成有用的的策略性資訊是整個資料倉儲的重點。也就是,資料倉儲應該具有這樣的資料:整合性資料(integrated data)、詳細和彙總性的資料(detailed and summarized data)、歷史資料、解釋資料的資料(Metadata)。如果資料倉儲集合具有成功有效率地探測資料的世界,則挖掘出決策有用的資料與知識,是建立資料倉儲與使用Data Mining的最大目的。而從資料倉儲挖掘有用的資料,則是Data Mining的研究重點。換句話說,資料倉儲應先行建立完成,Data mining才能有效率的進行,因為資料倉儲本身所含資料是「乾淨」(不會有錯誤的資料參雜其中)、完整的,而且是整合在一起的。因此,或許可說Data Mining是從巨大資料倉儲找出有用資訊之一種過程與技術。         

Data MiningData warehouseKDD三者的關係可以如此釐清:Data warehouse是一個經過處理、整合之資料庫,而KDD是一種知識發現的一連串程序,Data Mining只是KDD的一個重要程序。

資料挖掘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。Data Mining被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,有許多不同領域的專家對Data Mining展現出極大興趣。許多產業界人士也認為此領域是一項增加各企業潛能的重要指標,被企業體作為主要利基的重要所在。

        現代的企業體經常蒐集了大量資料,包括市場、客戶、供應商、競爭對手以及未來趨勢等重要資訊,但是資訊超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如果能透過資料發掘技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,作為決策支援之用,必能產生企業的競爭優勢。例如在資訊服務業中,浮現一些應用,如在Internet之資料倉儲和線上服務等等。 

三、功能

一般而言,Data Mining功能可包含下列五項功能: 

1.          分類(classification)  

按照分析對象的屬性分門別類加以定義,建立類組(class)。例如,將信用申請者的風險屬性,區分為高度風險申請者,中度風險申請者及低度風險申請者。使用的技巧有決策樹(decision tree),記憶基礎推理(memory - based reasoning)等。 

2.          推估(estimation) 

根據既有連續性數值之相關屬性資料,以獲致某一屬性未知之值。例如按照信用申請者之教育程度、行為別來推估其信用卡消費量。使用的技巧包括統計方法上之相關分析、迴歸分析及類神經網路方法。 

3.          預測(prediction): 

根據對象屬性之過去觀察值來推估該屬性未來之值。例如由顧客過去之刷卡消費量預測其未來之刷卡消費量。使用的技巧包括迴歸分析、時間數列分析及類神經網路方法。 

4.          關聯分組(affinity grouping): 

從所有物件決定那些相關物件應該放在一起。例如超市中相關之盥洗用品(牙刷、牙膏、牙線),放在同一間貨架上。在客戶行銷系統上,此種功能係用來確認交叉銷售(cross selling)的機會以設計出吸引人的產品群組。 

5.           區隔化(segmentation) : 

將異質母體中區隔為較具同質性之群組(clusters)。同質分組相當於行銷術語中的區隔化(segmentation),但是,假定事先未對於區隔加以定義,而資料中自然產生區隔。使用的技巧包括k-means法及agglomeration法。 

 

四、方法 

Data Miming 的工具利用資料來建立一些模擬真實世界的模式(Model),並利用這些模式來描述資料中的特徵(Patterns)以及關係(Relations)。這些模式有兩種用處: 

  •  瞭解資料的特徵與關係可以提供你做決策所需要的資訊 
  •  資料的特徵可以幫助你做預測

Data Mining 可以建立六種模式,其中Classification Regression 主要是用來做預測,而 Association Sequence 主要是用來描述行為(例如消費行為),另外Clustering 則是二者都可以用的上: 

1.      Classification: 

 Classification 是根據一些變數的數值做計算,再依照結果作分類。(計算的結果最後會被分類為幾個少數的離散數值,例如將一組資料分為 "可能會回應" 或是 "可能不會回應" 兩類)。Classification 常常被用來處理如郵寄對象篩選的問題。我們會用一些已經分類的資料來研究它們的特徵,然後再根據這些特徵對其他未經分類或是新的資料做預測。這些 我們用來尋找特徵的已分類資料可能是來自我們的現有的歷史性資料,或是將一個完整資料庫做部份取樣,再經由實際的運作來測試;譬如利用一個大的郵寄對象資 料庫的部份取樣來建立一個 Classification Model,以後再利用這個 Model 來對資料庫的其他資料或是新的資料作預測。 

2. Regression: 

Regression 是使用一系列的現有數值來預測一個連續數值的可能值。  

3.          Time Series: 

  Time-Series Forcasting Regression 很像,只是它是用現有的數值來預測未來的數值。Time-Series Forcasting 的不同點在於它所分析的數值都與時間有關。 

Time-Series Forcasting 的工具可以處理有關時間的一些特性,譬如時間的階層性(例如每個禮拜五個或六個工作天)、季節性、節日、以及其他的一些特別因素如過去與未來的關連性有多少。 

4.          Clustering: 

  Clustering 是將資料分為幾組,其目的是要將組與組之間的差異找出來,同時也要將一個組之中的成員的相似性找出來。Clustering Classification 不同的是,你不曉得它會以何種方式或根據什麼來分類。所以你必須要有一個分析師來解讀這些分類的意義。 

5.          Association: 

  Association 是要找出在某一事件或是資料中會同時出現的東西。Association 主要是要找出下面這樣的資訊:如果 Item A 是某一事件的一部份,則 Item B 也出現在該事件中的機率有 X %。(例如:如果一個顧客買了低脂乳酪以及低脂優酪乳,那麼這個顧客同時也買低脂牛奶的機率是 85%。) 

6.          Sequence: 

  Sequence Discovery Association 關係很密切,所不同的是 Sequence Discovery 中相關的 Item 是以時間區分開來(例如:如果做了 X 手術,則 Y 病菌在手術後感染的機率是 45%。又例如:如果 A 股票在某一天上漲12%,而且當天股市加權指數下降,則 B 股票在兩天之內上漲的機率是 68%)。 

接下來簡介各重要演算法: 

A.         Association Rule: 

常用在分析當顧客購買一項產品時同時會購買何項商品,主要的分析對象是發生在同一時間的事件。 

  •  連續時間序列(Time series data):分析要將顧客的個人資料,才能將不同時間的各個交易結合起來。時間註記或續號決定交易紀錄的先後順序。 
  •  跨時綜覽(Time Windows):在僅以有少數跨時性樣本的情況下特別有用。一般將一個月發生的交易全都簡化紀錄為單筆紀錄。可以幫助我們瞭解行為模式。例如: 

 *   滿   意:(存款、提款)

*   不滿意:(存款、提款、查詢餘額、結算、取消帳戶 

a.           常用來: 

  •   比較商品銷售在一般期間與促銷期間的差異  
  •   比較不同地理位置在銷售上的差異性  
  •   偵測不同(年、月、週、日)季節的消費模式 

 b.         比較:

優點 缺點
  • 採用的計算模式簡單易懂  
  • 所產生的結論簡單易懂  
  • 適合非監督式資料  
  • 能分析不同形式的原始資料
  • 當商品數量增加,運算會隨之而成幾何級數增加  
  • 不特別重視商品的個別特性  
  • 難以決定組合的適合商品數
  •  容易剔除(忽略)罕見的商品規則


c.          結果: 

I.            有用的規則:包含高品質的有效情報,例如將啤酒與自有品牌的尿布放在一起。 

  •  威名百貨WAL-MART發現,跟尿布一起購買最多的商品竟然是啤酒,後來透過市場調查才得知,原來美國的太太常叮嚀丈夫在下班前幫嬰兒買尿布,而40%的先生在買完尿布後,又會隨手拎兩罐啤酒,在各個賣店把啤酒和尿布擺在一起,結果尿布和啤酒的銷售量雙雙增加三成!  
  •  七五三感冒指數:如果一天當中溫度相差七度、今天和昨天的溫度差到五度、且濕度差大於30%的話,代表感冒的人會增加,商家就要考慮把感冒藥、溫度計和口罩之類的用品上架。  
  •  氣溫在二十四度到二十七度之間時,鰻魚、冰品和防曬乳會賣得好,溫度在二十二度到二十五度時,涼飲、冰咖啡和殺蟲劑就不可少,至於溫度在十七度到二十度當中時,布丁、沙拉和優格則很受歡迎。 

II.       明顯的結果:該行業的一般常識(common sense),例如顧客簽訂維修合約後,通常會買大型家電用品;購買手電筒會買電池。

III.       無法解釋的解果:看起來沒有合理的解釋,例如大型五金行開幕後,馬桶蓋昰熱門的商品之一。多半是資料的巧合,無法做為決策的基礎,無法告訴原因,或是相因應之行銷活動。 

d.           理論 

當挖掘演算法所找出的規則滿足使用者訂定的最小的minimum support與minimum confidence的門檻時,這個規則才會成立。

元組 出現頻率
A 45%
B 42.5%
C 40%
A和B 25%
A和C 20%
B和C 15%
A和B和C 5%

 

  • Support:就是一個元組在整個資料庫中出現的機率。P(condition) 
*  minimum support:界定一個規則必須涵蓋的最少資料數目
  • Confidence:界定一個規則預測強度(信心水準)。P(condition and result)/ P( condition)
  •   minimum confidence可信度:界定一個規則最小預測強度(信心水準)。 
  • 提高率(興趣度):P ( condition and result) / P ( condition) * P ( result表單的底部)單的頂端 

當興趣度大於1的時候,這條規則比較好的;

當興趣度小於1的時候,這條規則沒有很大意義的,應該略去這樣規則。

 興趣度越大,規則的實際意義就越好。

 

e.          關聯規則的種類 

I.            屬性值:

(1)            Boolean association rule :僅探討item是否出現

(2)            Association rule with repeated items 探討item的購買數量

II.         資料維度:

(1)            單一維度關聯規則(single dimensional association rules):若買牛奶,則會買麵包。

(2)            多重( multi dimensional association rules):加上「年齡」「收入」「購買」三個維度。

III.       抽象層級:在規則中的項目或屬性可以跨不同的概念層級。如「年齡」與「Toyota汽車」

 

規則 說明 範例
若 A 則  B 若"條件句",則"結論句"。 若買柳橙汁則會買牛奶(80%)
若 B 則 A   若買牛奶則會買柳橙汁(70%)
若 A 則 非B   若買清潔劑則不會買牛奶(60%)
若 (A 與 B )則  會比" 若 A 則  B 與 C " 有用 若買柳橙汁與牛奶則會買汽水
若 A 則 (B 與 C)   若買柳橙汁則會買牛奶與汽水
若 (A 與 非B )則 C (無關規則Dissociation Rules)  
若 非A 與 非B 則 非 C   若沒買柳橙汁且沒買汽水則也不會買牛奶

f.           流程

選擇正確的物品組合,越詳細的分類代表分析結果會越實用,但是資料量會隨之而增加。組合數會依照商品數量成幾何級數增加,在一百種商品的情況下,三種商品的組合為161,700種。將少見的商品用較高階的分類項歸類,如此一來,出現的機會會較多。

經由關聯矩陣產生規則:

  •  虛擬標籤(Virtual Items)

虛擬標籤的目的在幫助分析過程中,利用分類法所無法提供的資訊,來描述一筆交易,但它們並不是真的分類項 ,可以用來比較差異。

<蘇打水>:可口可樂, 百事可樂

<低糖蘇打水>:健怡可樂 ,低糖百事可樂

g.            應用

  •  實行目標行銷
  •  進行市場區隔
  •  選擇目標顧客
  •  分析顧客行為:銀行提供的多項服務來分析客戶可能較為需要那些服務。
  •  改進市場陳設
  •  組合搭設商品,電話公司提供的多項套裝(捆綁銷售)服務。
  •  發堀不良率,不尋常的多項保險申請,可能是欺詐行為。

五、Data Mining導入的四個階段

1.          目標(target)設定:

研析現有的business process以確認Data Mining可以應用的領域,這些領域可能包括行銷、銷售、顧客服務等。

在此階段,從事使用者訪談、蒐集資料等工作。其次,將資料按可能使用的模型如以clearing filtering transformation。在此階段應產生下列各項:

(1)            有關data mining先導計畫實施目的之說明

(2)            評估計畫之評估準則

(3)            資料整理結果及初步分析報告

(4)            計畫時程

(5)            最後目標之大綱

2.          Prototyping

從第一階段所獲致結果,使用合適的軟硬體從事系統prototype 模型之開發。在開發prototype的過程中,修正資料之整理方法的模型之建立。在本階段應完成下列各項:

(1)            Prototype模型開發系統

(2)            Data Mining技術及工具之評估

(3)            調整business processData Mining系統整合之計畫 

3.          系統建置:

在此階段應產生下列各項:

(1)            資料擷取及整理之程序及軟體

(2)            Data Mining模型開發系統

(3)            Data Mining上線之第一個版本

(4)            solution的執行及migration plan Data Mining環境設定及開發計畫

4.          系統移植(migration)

Data mining文化的建立及使用者的訓練,在此階段應產生下列項目:

1Data Mining之上線環境

2Data Mining使用者清單

3Business ProcessData Mining之回應-系統改善計畫

六、Data Mining建置的注意事項

1.          資料來源:一般的交易資料可能不足以用來估計銀行活期存款帳戶之流失率,必須再蒐集資料,以瞭解客戶流失之原因。  

2.          資料需求的界定:找出針對與特定問題相關原因與象徵之資訊。

3.          訪談人員需求:訪談之被訪人可能包括服務中心人員,分行經理、及行銷分析人員等。從事訪談的人員則以從事流失模型建立之分析為宜。

4.          模型建立:模型的種類可以涵蓋簡單的OLAP,以致複雜的neural network

5.          資料整理:不同的模型有不同的資料需求,資料整理方式也不同。

6.          軟體需求:利用的原有的交易資料及額外蒐集的資料後必須利用專業的軟體建立模型。所需要的軟體可能包括SQL queries及特殊的分析軟體。

7.          資料倉儲的支援:在Data mining的應用上必須以資料倉儲作為支援。因此,在建置資枓倉儲時必須考慮到Data mining的應用。  

七、工具

介紹一般常用的工具分類,列於表一:

表一 Data mining分析工具

Data mining tools

定義

代表性產品

Case-based Reasoning 

在關聯式資料庫中提供一個Means找出record以發現類似規範的記錄或一般記錄 

  • CBR Express
  • Esteen
  • Kate-CBR
  • The Easy Reasoner

Data Visualization  

其目標是從不同的角度,讓資訊以圖形方式呈現,讓使用者容易和快速的使用。這工具把不同資料次集合,或不同彙總性資料,讓使使用者快速的瞭解。

  • Alterian
  • AVS/Express
  • Visualization Edition
  • Axum
  • Discovery
  • SPSS Diamond
  • Visual Insight  

Fuzzy Query and Analysis 

模糊理論積極的承認人主觀性問題的存在,進而以模糊集合來處理不易量化問題,故能找出意想不到的資訊。模糊理論發展的工具能使使用者容易導入既定的標準中,而此種工具最大用途是,當使用者要查核多重標準,以及要改變每一種標準時。 

  • CubiCalc
  • FuziCalc
  • FuzzyTECH for business
  • Quest

Knowledge Discovery  

這些工具特別設計以便確認那些已存在變數間的顯著關係,也就是當它們有可能多重關係時,特別有用。這些data mining工具能幫助指出巨量變數間的關係,發現盲點創造巨大的商機。 

  • Aria
  • Answer tree
  • CART
  • DARWIN
  • Enterprise Miner
  • DataEngine 

Neural Networks

類神經網路技術的目標是發現與預測資料的關係,它與傳統統計方法的區別是,它可以訓練學習發現的關係,並且可適用於線性與非線性的情況,並可以彌補資料品質較差的情況,而處理出品質不錯的資訊來。

  • BackPack
  • BrainMaker
  • Loadstone
  • NeuFrame/NeuroFuzzy
  • Neural network Browser
  • Neural connection
  • Neural network Utility
  • Neuralyst For Excel

從表一可以發現資料挖掘技術的多樣化,從傳統分析工具,例如統計迴歸預測模型、資料庫分割、連接分析、偏差偵測等。但是,重要的是這些產品應用新的技術,如類神經網路、機器學習、專家系統等人工智慧的工具,使AI找到新的應用Domain。

 

  • WEKA:

全名為懷卡托智慧分析環境(Waikato Environment for Knowledge Analysis),為機器學習(Machine learning)以及資料採擷(Data Minining)軟體。WEKA使用的資料格式為ARFF,稍後會介紹ARFF檔的格式。

WEKA:http://www.cs.waikato.ac.nz/ml/weka/

     WEKA中文站:http://www.wekacn.org/

特色:

  • 免費、非商業化
  • 基於JAVA環境
  • 開放原始碼

      歷史:

  • 1993年由New Zealand的The University of Waikato進行開發,最初的軟體基於C語言實現。 
  • 1997年,開發小組用JAVA語言重新編寫了該軟體,並且對相關的資料採擷演算法進行了大量的改進。 
  • Sourceforge的下載排名為250 ( 1,871,282 downloads )
  • 2005 年,The University of Waikato 的 WEKA 小組榮獲ACM SIGKDD的資料採擷和知識探索的最高服務獎
  • Sourceforge的下載排名為250 ( 1,871,282 downloads )

    ARFF format:關於詳細的ARFF資料,請參考http://www.cs.waikato.ac.nz/~ml/weka/arff.html



%   

%comments

%

@relation  <relation-name>

@attribute  <attribute-name> <datatype>

@data

attribute type:

  • numeric: real number、integer  number
  •  <nominal-specification>:例:@ATTRIBUTE    <attribute-name>    {<nominal-name1>,  <nominal-name2>,<nominalname3>, ...} 
  •  string
  • date [<date-format>]:例:@ATTRIBUTE   <attribute-name>   "yyyy-MM-dd HH:mm:ss" 


ARFF format data set :  Iris Dataset


@RELATION Iris

@ATTRIBUTE sepallength  REAL

@ATTRIBUTE sepalwidth  REAL

@ATTRIBUTE petallength  REAL

@ATTRIBUTE petalwidth REAL

@ATTRIBUTE class  {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA

5.1 , 3.5 , 1.4 , 0.2 , Iris-setosa

4.9 , 3.0 , 1.4 , 0.2 , Iris-setosa

4.7 , 3.2 , 1.3 , 0.2 , Iris-setosa

4.6 , 3.1 , 1.5 , 0.2 , Iris-setosa

 

Data Set Source:


Develop in WEKA

1. 到Weka網頁下載最新的weka程式 。

2.解開weka-x-x-x.zip檔案,然後點選weka.jar執行(前提必須安裝JRE) weka有自己設定的檔案格式arff,因此如果你的資料不是arff格式請利用weka的其他loader將(CSV)檔案讀入,作資料分析。 

3.其餘的實驗部分請詳讀目錄中的ExperimenterTutorial.pdf檔案,如果你想加入新的Classfiy、Clustering與Associate的演算法如下。

3-1.利用Eclipse匯入weka-src.zip檔案 
3-2.主程式執行時尋找weka.gui.GUIChooser 
3-3.新增Clasfly可以尋找weka.classifiers中的範例 
3-4.新增Clustering可以尋找weka.clusterers中的範例 
3-5.新增Associate則可以尋找weka.associations中的範例

八、企業應用現況 

Data Mining導入企業,其重點在於企業領域方面的知識,而它的Domain-specific Tools要結合企業中使用者的語言和分析過程,才能發揮工具的效能與增進企業的智慧。換句話說,就是要顛覆常規和超越平日的想像,展現企業目標與問題的知識,以支援 解釋別人看不到、看不出的資訊來。企業必須能夠從巨大資料庫中挖掘到濃縮、先前不知、可理解的資訊,並從使用中獲利。例如,一個發行管理共同基金(mutual funds)的 企業體要發掘潛在客戶,它要能整合客戶的帳戶、人口統計、生活型態等資料。也就是說要能把資料庫中人口資料切分成為一些關鍵子集合:都市化情況、婚姻狀 態、家庭所得、年齡、風險偏好、高淨值等。最後,依據資料挖寶分析結果,可區分集群和從事推廣促銷活動,成功的把共同基金推展至市場上。          目前企業界把Data Mining應用在許多領域。例如,行銷、財務、銀行、製造廠、通訊等。並且產學合作下,發展出許多實用的系統,例如MDT、Coverstory and Spotlight 、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等 等。這些資料發掘的系統,應用非常廣泛,例如有一個應用在行銷領域的例子:經由記錄客戶的消費記錄與採購路線,超級市場可以設計出更吸引顧客購買的環境。 根據資料挖掘出特別的資訊來,因此現在超級市場的廚房用品,是按照女性的視線高度來擺放。根據研究指出:美國婦女的視線高度是150公分左右,男性是163公分左右,而最舒適的視線角度是視線高度以下15度左右,所以最好的貨品陳列位置是在130至135公分之間。          企業界實際發展Data Mining時,效能並不能預期,因為有許多因素影響著。例如,不充足的教育訓練、不適當的支援工具、資料的無效性、過於豐富的樣型(patterns)、多變與具時間性的資料、空間導向資料(spatially oriented data)、複雜的資料型態、資料的衡量性(scalability)。這說明資料與知識的發掘是一項資訊豐富性的工作,面對易變的環境,沒有現成的Model馬上可用,也不要期望按照程序即能成功。因此,我們要體會一些潛在的因素,如資料取捨、實體關係性、數量多寡、複雜性、資料品質、可取得性、變遷、專家意見等因素,才能做好資料挖掘工作。

九、心智圖

心智圖-又稱腦圖、思維導圖、靈感觸發圖、概念地圖或思維地圖,是一種圖像式思維的工具與及一種利用圖像式思考輔助工具來表達思維的工具。

心智圖是使用一個中央關鍵詞或想法引起形象化的構造和分類的想法,集中了所有關連資訊的語義網路或認知體系圖; 它用一個中央關鍵詞或想法以輻射線形及非線性圖解方式連接所有的代表字詞、想法、任務或其它關聯項目的圖解方式,以頭腦風暴(激發靈感)方法為本去建立一個適當或相關的概念性組織任務框架。它可以利用不同的方式去表現人們的想法,如引題式,可見形象化式,建構系統式和分類式,語義網路或認知體系是沒有一個既定製式鏈去互相連接使用,亦即是可以自由相連接使用的。它是普遍地用作在研究、組織、解決問題和政策制定中,元素是直覺地以概念的重要性而被安排及組織入分組、分支,或區域中。會集知識 方法是能夠支援現有的記憶,去思考語義的結構資訊。。

 心智圖(Mind Map)源起於語言學(linguistics)的一般語意學(General Semantics ),是由學者Alfred Korzybski 在1919 ~ 1933 年之間所進行的研究。1960年代美國西北大學的Allan M. Collins 教授所研究的語意網絡(semantic network)已經具備心智圖的雛形,因此也被稱之為現代心智圖之父。今天大家所認知的心智圖(在中國大陸譯為思維導圖)由Tony Buzan 發表於1974 年所出版的Use Your
Head 一書當中, Tony Buzan 說明他的構想是來自於Alfred Korzybski 的一般語意學。由此脈絡可以得知,心智圖結構概念的形成深深受到Alfred Korzybski 一般語意學與Allan M. Collins 的語意網絡的影響。

1960 年代末期,Roger Sperry 教授針對大腦皮質層做了深入的研究發現大腦皮質層的左右兩邊有著不同心智技能的傾向,右腦掌控:韻律、節奏、空間認知、完型、想像力、白日夢、色彩、尺寸大小;左腦掌控:文字、邏輯、數字、順序、行列、分析、清單。Sperry 教授也因為這項研究成果在1981 年獲頒諾貝爾獎。
接著經由Ornstein、Zaidel、Bloch et al 等人的後續研究除了證實了Sperry 教授的理論之外,同時額外發現:雖然左右腦各個半球掌控了一些定的活動,基本上這些我們日常生活當中的活動都是大腦每一個區域的心智技能共同協調處理的。基於上述的研究發現,心智圖融入了全部左、右腦的心智技能,以達到兼具邏輯與創意、科學與藝術、理性與感性的全腦思考模式。

心智圖(Mind Map)與1970 年代學習專家Joseph D. Novak 所發展出來的概念圖(Concept Map)有點類似也經常被混為一談,雖然兩者的結構都是放射思考模式,以視覺化的圖表來表示概念之間的關係,但是根據筆者累積多年來的使用經驗以及教學的心得發現,心智圖法更強調關鍵字的使用原則、邏輯分類階層化的結構以及加入了顏色、圖像等元素,為了讓讀者更加瞭解心智圖法的使用技巧,茲將上述心智圖法四大核心關鍵說明如下:

1.  關鍵字

心智圖法使用的關鍵字在詞性上以名詞為主、動詞次之,再輔以必要的形容詞與副詞,這是因為名詞、動詞最能呈現出具體視覺化的概念與圖像,同時在字數方面,心智圖法特別要求在每一個支幹線條上只書寫一個語詞,也就是必須掌握一個關鍵字的原則,讓我們的思緒有更多的「自由度」,這應用在腦力激盪(Brain Storming)、問題分析與解決Problem Solving)以及專案管理計劃(Project Plan)時,能夠讓思緒更加縝密,強化思考的深度與廣度並開啟思考的活口。

2.  分類與階層化的圖解結構

心智圖法透過樹狀結構為主,網狀脈絡為輔的圖解思考方式,依照關鍵字的邏輯結構做出分類與階層化的放射思考(Radiant Thinking)樹狀圖。台灣HP 惠普科技前任總經理廖仁祥先生表示,心智圖不但能夠讓你找出所有的關鍵字,更重要的是掌握關鍵字的因果關係。因此,從一張心智圖當中,就可以完全掌握某一主題的所有資訊(One Page Control)以及邏輯脈絡。

3.  顏色

心智圖法透過顏色的運用達到二大目的。首先是在視覺上透過顏色來區分不同的主題,其次是運用顏色來表達對該主題內容的感受性。這不但有助於釐清不同主題的內容,更因為啟動了右腦的心智能力,不但有助於激發創造力更能強化對內容的記憶力。

4.  圖像

一般人經常會誤以為畫的很漂亮、充滿美麗插圖的心智圖才是一張好的作品,這樣的想法是有些偏誤的,也會讓畫圖能力較差的人為之卻步,因而排斥使用心智圖。其實,圖像在心智圖當中的運用是為了標示出重點所在,提醒目光視覺的注意力並強化記憶的效果。在重點地方所要加的插圖只要用簡筆畫的方式畫出能表達對該資訊的聯想圖像即可,更何況現在有許多心智圖軟體可以使用,插圖已經不再是問題了。

心智圖法已經被證實可以應用到各個不同的領域,但是絕非任意畫一張充滿色彩、圖畫樹狀圖就是心智圖,它必須遵循一些必要的規則,除了本文先前已經提過的四大核心關鍵之外,以下是為了達到不同效果在運用心智圖必須注意的事項:
達到強化印象的效果、達到強化聯想的效果、達到簡潔清晰的效果


<引用:提升思考力與學習力的必備能力 心智圖法 孫易新>

 

※  軟體工具:

Freemind - http://freemind.sourceforge.net/wiki/index.php/Main_Page
Cayra - http://cayra.en.softonic.com/
MindManager - http://www.mindjet.com/index3.html
Xmind - http://www.xmind.net/
MindMap - http://mind42.com/
Bubble.us –http://bubbl.us/
Comapping - http://www.comapping.com/