蔡華誠的學習歷程檔案 - 111-1 人工智慧 - 7. 知識發現 |
|
|
7. 知識發現知識發現是從各種信息中,根據不同的需求獲得知識的過程。知識發現的目的是向使用者禁止原始數據的繁瑣細節,從原始數據中提煉出有效的、新穎的、潛在有用的知識,直接向使用者報告。知識發現(Knowledge Discovery in Database, KDD),是所謂"數據挖掘"的一種更廣義的說法,即從各種媒體表示的信息中,根據不同的需求獲得知識。知識發現的目的是向使用者禁止原始數據的繁瑣細節,從原始數據中提煉出有意義的、簡潔的知識,直接向使用者報告。基於資料庫的知識發現(KDD)和數據挖掘還存在著混淆,通常這兩個術語替換使用。KDD表示將低層數據轉換為高層知識的整個過程。可以將KDD簡單定義為:KDD是確定數據中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。而數據挖掘可認為是觀察數據中模式或模型的抽取,這是對數據挖掘的一般解釋。雖然數據挖掘是知識發現過程的核心,但它通常僅占KDD的一部分(大約是15% 到25%) 。因此數據挖掘僅僅是整個KDD過程的一個步驟,對於到底有多少步以及哪一步必須包括在KDD過程中沒有確切的定義。然而,通用的過程應該接收原始數據輸入,選擇重要的數據項,縮減、預處理和濃縮數據組,將數據轉換為合適的格式,從數據中找到模式,評價解釋發現結果。 數據分類分類是數據挖掘研究的重要分支之一,是一種有效的數據分析方法。分類的目標是通過分析訓練數據集,構造一個分類模型(即分類器),該模型能夠把資料庫中的數據記錄映射到一個給定的類別,從而可以l立用於數據預測。數據聚類當要分析的數據缺乏必要的描述信息,或者根本就無法組織成任何分類模式時,利用聚類函式把一組個體按照相似性歸成若干類,這樣就可以自動找到類。聚類和分類類似,都是將數據進行分組。但與分類不同的是,聚類中的組不是預先定義的,而是根據實際數據的特徵按照數據之間的相似性來定義的。衰退和預報這是一種特殊類型的分類,可以看作是根據過去和當前的數據預測未來的數據狀態。通過對用衰減統計技術建模的數字值的預測,學習一種(線性或非線性)功能將數據項映射為一個數字預測變數。關聯和相關性是指發現大規模數據集中項集之間有趣的關聯或相關關係。關聯規則是指通過對資料庫中的數據進行分析,從某一數據對象的信息來推斷另一數據對象的信息,尋找出重複出現機率很高的知識模式,常用一個帶有置信度因子的參數來描述這種不確定的關係。順序發現通常指確定數據組中的順序模式。當數據的特定類型的關係已被發現時,這些模式同關聯和相關性相似。但對關係基於時間序列的數據組,順序發現和關聯就不同了。概括總結:順序發現是將數據映射為有關數據組的簡練描述的子集或映射為資料庫中一組特定用戶數據的高度概括的數據。描述和辨別是指發現一組特徵規則,其中的每一條都是或者顯示數據組的特徵或者從對比類中區別試驗類的概念的命題。時間序列分析其任務是發現屬性值的發展趨向,如從股票價格指數的金融數據、客戶數據和醫學數據等。它是用來搜尋相似模式以發現和預測特定模式的風險、因果關係和趨勢。知識類型1)廣義型知識(Generalization)是根據數據的微觀特性發現其表征的、帶有普遍性的、高層次概念的、中觀或巨觀的知識。 2)分類型知識(Classification&Clustering) 反映同類事物共同性質的特徵型知識和不同事物之間差異型特徵知識。用於反映數據的匯聚模式或根據對象的屬性區分其所屬類別。 3)關聯型知識(Association) 是反映一個事件和其他事件之間依賴或關聯的知識,又稱依賴(Dependency)關係。這類知識可用於資料庫中的歸一化,查詢最佳化等。 4)預測型知識(Prediction) 通過時間序列型數據,由歷史的和當前的數據去預測未來的情況。它實際上是一種以時間為關鍵屬性的關聯知識。 5)偏差型知識(Deviation) 通過分析標準類以外的特例、數據聚類外的離群值、實際觀測值和系統預測值間的顯著差別,對差異和極端特例進行描述。 技術運用概述知識發現已經出現了許多知識發現技術,分類方法也有很多種,按被挖掘對象分有基於關係資料庫、多媒體資料庫;按挖掘的方法分有數據驅動型、查詢驅動型和互動型;按知識類型分有關聯規則、特徵挖掘、分類、聚類、總結知識、趨勢分析、偏差分析、文本採掘。知識發現技術可分為兩類:基於算法的方法和基於可視化的方法 。大多數基於算法的方法是在人工智慧、信息檢索、資料庫、統計學、模糊集和粗糙集理論等領域中發展來的。
|
|