蔡華誠的學習歷程檔案 - 中華科技大學數位化學習歷程

典型技術

典型的基於算法的知識發現技術包括：或然性和最大可能性估計的貝葉斯理論、衰退分析、最近鄰、決策樹、K一方法聚類、關聯規則挖掘、Web和搜尋引擎、數據倉庫和在線上分析處理(On—line Analytical Processing，OLAP) 、神經網路、遺傳算法、模糊分類和聚類、粗糙分類和規則歸納等。這些技術都很成熟，並且在相關書籍文章上都有詳細介紹。這裡介紹一種基於可視化的方法。

創新技術

基於可視化方法是在圖形學、科學可視化和信息可視化等領域發展起來的，包括：

①幾何投射技術。是指通過使用基本的組成分析、因素分析、多維度縮放比例來發現多維數據集的有趣投影。

②基於圖示技術。是指將每個多維數據項映射為圖形、色彩或其他圖示來改進對數據和模式的表達。

③面向像素的技術。其中每個屬性只由一個有色像素表示，或者屬性取值範圍映射為一個固定的彩色圖。④ 層次技術。指細分多維空間，並用層次方式給出子空間。

⑤基於圖表技術。是指通過使用查詢語言和抽取技術以圖表形式有效給出數據集。

⑥ 混合技術。是指將上述兩種或多種技術合併到一起的技術。

操作步驟

知識發現過程的多種描述．它們只是在組織和表達方式上有所不同，在內容上並沒有非常本質的區別。知識發現過程包括以下步驟：

1．問題的理解和定義：數據挖掘人員與領域專家合作．對問題進行深入的分析．以確定可能的解決途徑和對學習結果的評測方法。
2．相關數據收集和提取：根據問題的定義收集有關的數據。在數據提取過程中，可以利用資料庫的查詢功能以加快數據的提取速度。

3．數據探索和清理：了解資料庫中欄位的含義及其與其他欄位的關係。對提取出的數據進行合法性檢查並清理含有錯誤的數據。

4．數據工程：對數據進行再加工．主要包括選擇相關的屬性子集並剔除冗餘屬性、根據知識發現任務對數據進行採樣以減少學習量以及對數據的表述方式進行轉換以適於學習算法等。為了使數據與任務達到最佳的匹配．這個步驟可能反覆多次。

5．算法選擇：根據數據和所要解決的問題選擇合適的數據挖掘算法．並決定如何在這些數據上使用該算法。

6．運行數據挖掘算法：根據選定的數據挖掘算法對經過處理後的數據進行模式提取。

7．結果的評價：對學習結果的評價依賴於需要解決的問題．由領域專家對發現的模式的新穎性和有效性進行評價。數據挖掘是KDD 過程的一個基本步驟．它包括特定的從資料庫中發現模式的挖掘算法。KDD過程使用數據挖掘算法根據特定的度量方法和閾值從資料庫中提取或識別出知識，這個過程包括對資料庫的預處理、樣本劃分和數據變換。

套用範圍

知識發現事實上知識發現的潛在套用是十分廣闊的．已經遠遠超出了最初的”貨架子工程”。從工業到農業，從天文到地理從預測預報到決策支持，KDD都發揮著越來越重要的作用。許多計算機軟體開發商都已經推出了其數據挖掘產品，如IBM．Microsoft，SPSS．SGI，SLPInfoware，SAS(ObjectBusiness)等。數據挖掘作為信息處理的高新技術已經在實際套用中嶄露頭角。

1、商業方面。”貨架子工程”是KDD最初成功套用的典範。也正是因為在商業方面的成功套用不斷刺激著KDD的發展，進而拓展到越來越廣闊的套用領域。如今商業．特別是銷售業和服務行業，仍然是KDD套用最廣泛的領域之一。主要套用於銷售預測、庫存需求、零售點選擇、價格分析和銷售模式分析。例如賓館酒店通過對消費特別高和特別低的顧客進行偏離模式分析，可以發現一些有趣的消費模式：AutOm at edW a—ge ring公司使用AdvancedSoftwa reAppI ications的ModeIMaX預測模型．結合地理信息分析開發了Lo—tieryMachineSi[eSelection．以決定在佛羅里達州安裝彩票機的最佳地點。2、農業方面。農業是一個大型複雜系統中國農業部門數十年來積累了大量的關於土肥、氣象、病蟲害、市場信息等方面的數據、實例和經驗知識．但基本上沒有得到充分利用。通過KDD可以從中發現許多有價值和有規律的知識。如通過對病蟲害資料庫的分析，可以發現病蟲害的影響因素、遷移或蔓延規律等．從而遏制災害的發生、擴展或降低災害損失，通過對國際國內市場信息的挖掘來指導農業生產規劃等。

7. 知識發現

數據分類

數據聚類

衰退和預報

關聯和相關性

順序發現

描述和辨別

時間序列分析

知識類型

技術運用

概述

典型技術

創新技術

操作步驟

套用範圍