-
>
中醫(yī)基礎(chǔ)理論
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫(yī)內(nèi)科學·全國中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
-
>
中醫(yī)診斷學--新世紀第五版
-
>
中藥學·全國中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
21世紀高等學校計算機專業(yè)核心課程規(guī)劃教材數(shù)據(jù)挖掘原理與算法(第3版)/毛國君 版權(quán)信息
- ISBN:9787302415817
- 條形碼:9787302415817 ; 978-7-302-41581-7
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
21世紀高等學校計算機專業(yè)核心課程規(guī)劃教材數(shù)據(jù)挖掘原理與算法(第3版)/毛國君 本書特色
《數(shù)據(jù)挖掘原理與算法(第3版)》在經(jīng)典教材的基礎(chǔ)上,重點增加了大數(shù)據(jù)挖掘等新的數(shù)據(jù)挖掘的需求和技術(shù)分析,對Web挖掘的內(nèi)容進行了重新編排,并增加了必要的新方法。近年來出現(xiàn)的公認的典型算法和技術(shù)也得到加強,使之很好地適應讀者在教學或者學習中的新需求。 本書內(nèi)容相對全面,各章之間耦合度小。作為教材,教師可以根據(jù)學生類型、學時安排等進行選擇性教學。作為參考書,讀者可以根據(jù)自己的基礎(chǔ)進行選擇性學習或查閱。在每章后面都設置專門一節(jié)來對本章內(nèi)容和文獻引用情況進行歸納,它不僅可以幫助讀者對相關(guān)內(nèi)容進行整理,而且對讀者,特別是研究人員,也起到文獻的注釋性索引功能。
21世紀高等學校計算機專業(yè)核心課程規(guī)劃教材數(shù)據(jù)挖掘原理與算法(第3版)/毛國君 內(nèi)容簡介
本書是一本全面介紹數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)的專業(yè)書籍,系統(tǒng)地闡述了數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)的產(chǎn)生、發(fā)展、應用以及相關(guān)概念、原理和算法,對數(shù)據(jù)挖掘中的主要技術(shù)分支,包括關(guān)聯(lián)規(guī)則、分類、聚類、序列、空間以及Web挖掘等進行了理論剖析和算法描述。本書的許多內(nèi)容是作者們在攻讀博士學位期間的工作總結(jié),一方面,對于相關(guān)概念和技術(shù)的闡述盡量先從理論分析入手,在此基礎(chǔ)上進行技術(shù)歸納; 另一方面,為了保證技術(shù)的系統(tǒng)性,所有的挖掘模型和算法描述都在統(tǒng)一的技術(shù)歸納框架下進行。同時,為了避免抽象算法描述給讀者帶來的理解困難,本書的所有典型算法都通過具體跟蹤執(zhí)行實例來進一步說明。 全書共分8章,各章相對獨立成篇,以利于讀者選擇性學習。在每章后面都設置專門一節(jié)來對本章內(nèi)容和文獻引用情況進行歸納,它不僅可以幫助讀者對相關(guān)內(nèi)容進行整理,而且也起到對本章內(nèi)容相關(guān)文獻的注釋性索引功能。 本書可作為計算機專業(yè)研究生或高年級本科生教材,也可以作為從事計算機研究和開發(fā)人員的參考資料。作為教材,教師可以根據(jù)課時安排進行選擇性教學。為了更好地讓教師進行選擇性教學,本書配有專門的教師用書,對內(nèi)容的重點、難點和課時分配給出了對應的建議,對重要的和難度較大的習題進行了分析和解答。對于研究人員,本書是一本高參考價值的專業(yè)書籍。對于軟件技術(shù)人員,可以把它當作提高用書或參考資料,一些算法可以通過改造用于實際的應用系統(tǒng)中。
21世紀高等學校計算機專業(yè)核心課程規(guī)劃教材數(shù)據(jù)挖掘原理與算法(第3版)/毛國君 目錄
1.1 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生與發(fā)展
1.1.1 數(shù)據(jù)挖掘技術(shù)的商業(yè)需求分析
1.1.2 數(shù)據(jù)挖掘產(chǎn)生的技術(shù)背景分析
1.1.3 大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)需求分析
1.2 數(shù)據(jù)挖掘研究的發(fā)展趨勢
1.3 數(shù)據(jù)挖掘概念
1.3.1 從商業(yè)角度看數(shù)據(jù)挖掘技術(shù)
1.3.2 數(shù)據(jù)挖掘的技術(shù)含義
1.3.3 數(shù)據(jù)挖掘研究的理論基礎(chǔ)
1.4 數(shù)據(jù)挖掘技術(shù)的分類問題
1.5 數(shù)據(jù)挖掘常用的知識表示模式與方法
1.5.1 廣義知識挖掘
1.5.2 關(guān)聯(lián)知識挖掘
1.5.3 類知識挖掘
1.5.4 預測型知識挖掘
1.5.5 特異型知識挖掘
1.6 不同數(shù)據(jù)存儲形式下的數(shù)據(jù)挖掘問題
1.6.1 事務數(shù)據(jù)庫中的數(shù)據(jù)挖掘
1.6.2 關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)挖掘
1.6.3 數(shù)據(jù)倉庫中的數(shù)據(jù)挖掘
1.6.4 在關(guān)系模型基礎(chǔ)上發(fā)展的新型數(shù)據(jù)庫中的數(shù)據(jù)挖掘
1.6.5 面向應用的新型數(shù)據(jù)源中的數(shù)據(jù)挖掘
1.6.6 Web數(shù)據(jù)源中的數(shù)據(jù)挖掘
1.7 粗糙集方法及其在數(shù)據(jù)挖掘中的應用
1.7.1 粗糙集的一些重要概念
1.7.2 粗糙集應用舉例
1.7.3 粗糙集方法在KDD中的應用范圍
1.8 數(shù)據(jù)挖掘的應用分析
1.8.1 數(shù)據(jù)挖掘與CRM
1.8.2 數(shù)據(jù)挖掘與社會網(wǎng)絡
1.8.3 數(shù)據(jù)挖掘應用的成功案例分析
1.9 本章小結(jié)和文獻注釋
習題1
第2章 知識發(fā)現(xiàn)過程與應用結(jié)構(gòu)
2.1 知識發(fā)現(xiàn)的基本過程
2.1.1 數(shù)據(jù)抽取與集成技術(shù)要點
2.1.2 數(shù)據(jù)清洗與預處理技術(shù)要點
2.1.3 數(shù)據(jù)的選擇與整理技術(shù)要點
2.1.4 數(shù)據(jù)挖掘技術(shù)要點
2.1.5 模式評估技術(shù)要點
2.2 數(shù)據(jù)庫中的知識發(fā)現(xiàn)處理過程模型
2.2.1 階梯處理過程模型
2.2.2 螺旋處理過程模型
2.2.3 以用戶為中心的處理模型
2.2.4 聯(lián)機KDD模型
2.2.5 支持多數(shù)據(jù)源多知識模式的KDD處理模型
2.3 知識發(fā)現(xiàn)軟件或工具的發(fā)展
2.3.1 獨立的知識發(fā)現(xiàn)軟件
2.3.2 橫向的知識發(fā)現(xiàn)工具集
2.3.3 縱向的知識發(fā)現(xiàn)解決方案
2.3.4 KDD系統(tǒng)介紹
2.4 知識發(fā)現(xiàn)項目的過程化管理
2.5 數(shù)據(jù)挖掘語言介紹
2.5.1 數(shù)據(jù)挖掘語言的分類
2.5.2 數(shù)據(jù)挖掘查詢語言
2.5.3 數(shù)據(jù)挖掘建模語言
2.5.4 通用數(shù)據(jù)挖掘語言
2.5.5 DMQL挖掘查詢語言介紹
2.6 本章小結(jié)和文獻注釋
習題2
第3章 關(guān)聯(lián)規(guī)則挖掘理論和算法
3.1 基本概念與解決方法
3.2 經(jīng)典的頻繁項目集生成算法分析
3.2.1 項目集空間理論
3.2.2 經(jīng)典的發(fā)現(xiàn)頻繁項目集算法
3.2.3 關(guān)聯(lián)規(guī)則生成算法
3.3 Apriori算法的性能瓶頸問題
3.4 Apriori的改進算法
3.4.1 基于數(shù)據(jù)分割的方法
3.4.2 基于散列的方法
3.4.3 基于采樣的方法
3.5 項目集空間理論的發(fā)展
3.5.1 Close算法
3.5.2 FP-tree算法
3.6 項目集格空間和它的操作
3.7 基于項目集操作的關(guān)聯(lián)規(guī)則挖掘算法
3.7.1 關(guān)聯(lián)規(guī)則挖掘空間
3.7.2 三個實用算子
3.7.3 *大頻繁項目集格的生成算法
3.7.4 ISS-DM算法執(zhí)行示例
3.8 改善關(guān)聯(lián)規(guī)則挖掘質(zhì)量問題
3.8.1 用戶主觀層面
3.8.2 系統(tǒng)客觀層面
3.9 約束數(shù)據(jù)挖掘問題
3.9.1 約束在數(shù)據(jù)挖掘中的作用
3.9.2 約束的類型
3.10 時態(tài)約束關(guān)聯(lián)規(guī)則挖掘
3.11 關(guān)聯(lián)規(guī)則挖掘中的一些更深入的問題
3.11.1 多層次關(guān)聯(lián)規(guī)則挖掘
3.11.2 多維關(guān)聯(lián)規(guī)則挖掘
3.11.3 數(shù)量關(guān)聯(lián)規(guī)則挖掘
3.12 數(shù)量關(guān)聯(lián)規(guī)則挖掘方法
3.12.1 數(shù)量關(guān)聯(lián)規(guī)則挖掘問題
3.12.2 數(shù)量關(guān)聯(lián)規(guī)則的分類
3.12.3 數(shù)量關(guān)聯(lián)規(guī)則挖掘的一般步驟
3.12.4 數(shù)值屬性離散化問題及算法
3.13 本章小結(jié)和文獻注釋
習題3
第4章 分類方法
4.1 分類的基本概念與步驟
4.2 基于距離的分類算法
4.3 決策樹分類方法
4.3.1 決策樹基本算法概述
4.3.2 ID3算法
4.3.3 C4.5 算法
4.4 貝葉斯分類
4.4.1 貝葉斯定理
4.4.2 樸素貝葉斯分類
4.4.3 EM算法
4.5 規(guī)則歸納
4.5.1 AQ算法
4.5.2 CN2算法
4.5.3 FOIL算法
4.6 與分類有關(guān)的其他問題
4.6.1 分類數(shù)據(jù)預處理
4.6.2 分類器性能的表示與評估
4.7 本章小結(jié)和文獻注釋
習題4
……
第5章 聚類方法
第6章 時間序列和序列模式挖掘
第7章 Web挖掘技術(shù)
第8章 空間挖掘
參考文獻
21世紀高等學校計算機專業(yè)核心課程規(guī)劃教材數(shù)據(jù)挖掘原理與算法(第3版)/毛國君 節(jié)選
《數(shù)據(jù)挖掘原理與算法(第3版)》: 2.1.1 數(shù)據(jù)抽取與集成技術(shù)要點 在弄清源數(shù)據(jù)的信息和結(jié)構(gòu)的基礎(chǔ)上,首先需要準確地界定所選取的數(shù)據(jù)源和抽取原則。將多數(shù)據(jù)庫運行環(huán)境中的數(shù)據(jù)進行合并處理達到數(shù)據(jù)集成的目的。然后設計存儲新數(shù)據(jù)的結(jié)構(gòu)和準確定義它與源數(shù)據(jù)的轉(zhuǎn)換和裝載機制,以便正確地從每個數(shù)據(jù)源中抽取所需的數(shù)據(jù)。這些結(jié)構(gòu)和轉(zhuǎn)換信息應該作為元數(shù)據(jù)(Metadata)被存儲起來。在數(shù)據(jù)抽取過程中,必須要全面掌握源數(shù)據(jù)的結(jié)構(gòu)特點,任何疏忽都可能導致數(shù)據(jù)抽取的失敗。在抽取多個異構(gòu)數(shù)據(jù)源的過程中,可能需要將不同的源數(shù)據(jù)格式轉(zhuǎn)換成一種中間模式,再把它們集成起來。數(shù)據(jù)抽取與集成是知識發(fā)現(xiàn)的關(guān)鍵性工作。早期的數(shù)據(jù)抽取是依靠手工編程來實現(xiàn)的,現(xiàn)在可以通過高效的抽取工具來實現(xiàn)。即使是使用抽取工具,數(shù)據(jù)抽取和裝載仍然是一件很艱苦的工作。應用領(lǐng)域的分析數(shù)據(jù)通常來自多個數(shù)據(jù)源,所以必須進行數(shù)據(jù)集成。來自不同源的數(shù)據(jù)可能有模式定義上的差異,也可能存在因數(shù)據(jù)冗余而無法確定有效數(shù)據(jù)的情形。此外,還要考慮數(shù)據(jù)庫系統(tǒng)本身可能存在不兼容的情況! 2.1.2 數(shù)據(jù)清洗與預處理技術(shù)要點 如前所述,在開始一個知識發(fā)現(xiàn)項目之前必須清晰地定義挖掘目標。雖然挖掘的*后結(jié)果是不可預測的,但是要解決或探索的問題應該是可預見的。盲目性地挖掘是沒有任何意義的。在弄清業(yè)務問題后就可以進行數(shù)據(jù)的準備。數(shù)據(jù)預處理是進行數(shù)據(jù)分析和挖掘的基礎(chǔ),如果所集成的數(shù)據(jù)不正確,數(shù)據(jù)挖掘算法輸出的結(jié)果也必然不正確,這樣形成的決策支持是不可靠的。因此,要提高挖掘結(jié)果的準確率,數(shù)據(jù)預處理是不可忽視的一步。對數(shù)據(jù)進行預處理,一般需要對源數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪聲數(shù)據(jù)進行平滑,對丟失的數(shù)據(jù)進行填補,清除“臟”數(shù)據(jù),清除重復記錄等。常見的數(shù)據(jù)預處理方法有:數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)歸約等。 數(shù)據(jù)清洗是指去除或修補源數(shù)據(jù)中的不完整、不一致、含噪聲的數(shù)據(jù)。在源數(shù)據(jù)中,可能由于疏忽、懶惰甚至為了保密使系統(tǒng)設計人員無法得到某些數(shù)據(jù)項的數(shù)據(jù)。假如這個數(shù)據(jù)項正是知識發(fā)現(xiàn)系統(tǒng)所關(guān)心的,那么這類不完整的數(shù)據(jù)就需要修補! 〕R姷牟煌暾麛(shù)據(jù)的修補辦法有: 使用一個全局值來填充(如unknown、估計的*大數(shù)或*小數(shù))! 〗y(tǒng)計該屬性的所有非空值,并用平均值來填充空缺項! ≈皇褂猛悓ο蟮膶傩云骄堤畛洹! ±没貧w或工具預測*可能的值,并用它來填充! (shù)據(jù)不一致可能是由于源數(shù)據(jù)庫中對相同屬性數(shù)據(jù)所使用的數(shù)據(jù)類型、度量單位等不同而導致的。因此需要定義它們的轉(zhuǎn)換規(guī)則,并在挖掘前統(tǒng)一成一個形式。噪聲數(shù)據(jù)是指那些明顯不符合邏輯的偏差數(shù)據(jù)(如某雇員200歲),這樣的數(shù)據(jù)往往影響挖掘結(jié)果的正確性! ∧壳坝懻*多的處理噪聲數(shù)據(jù)的方法是數(shù)據(jù)平滑(DataSmoothing)技術(shù)。1999年,Pyle系統(tǒng)地歸納了利用數(shù)據(jù)平滑技術(shù)消除噪聲數(shù)據(jù)的方法。主要有: 利用分箱(Binning)方法檢測周圍相應屬性的值來進行局部數(shù)據(jù)平滑! ±镁垲惣夹g(shù)檢測孤立點數(shù)據(jù),對它們進行修正! ±没貧w函數(shù)探測和修正噪聲數(shù)據(jù)! 2.1.3 數(shù)據(jù)的選擇與整理技術(shù)要點 沒有高質(zhì)量的數(shù)據(jù)就不可能有高質(zhì)量的挖掘結(jié)果。為了得到一個高質(zhì)量的適合挖掘的數(shù)據(jù)子集,一方面需要通過數(shù)據(jù)清洗來消除干擾性數(shù)據(jù),另一方面也需要針對挖掘目標進行數(shù)據(jù)選擇。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,縮小處理范圍,提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)選擇可以使后面的數(shù)據(jù)挖掘工作聚焦到和挖掘任務相關(guān)的數(shù)據(jù)子集中。不僅提高了挖掘效率,而且也保證了挖掘的準確性。我們認為,數(shù)據(jù)選擇可以通過對目標數(shù)據(jù)加以正面限制或條件約束,挑選那些符合條件的數(shù)據(jù)。也可以通過對不感興趣的數(shù)據(jù)加以排除,只保留那些可能感興趣的數(shù)據(jù)。必須深入分析應用目標對數(shù)據(jù)的要求,確定合適的數(shù)據(jù)選擇或數(shù)據(jù)過濾策略,才能保證目標數(shù)據(jù)的質(zhì)量。被挑選的數(shù)據(jù)必須整理成合適的存儲形式才能被挖掘算法所使用。 利用數(shù)據(jù)變換或歸約等技術(shù)可以將數(shù)據(jù)整理成適合進一步挖掘的數(shù)據(jù)格式。數(shù)據(jù)變換可以根據(jù)需要構(gòu)造出新的屬性以幫助理解分析數(shù)據(jù)的特點,或者將數(shù)據(jù)規(guī)范化,使之落在一個特定的數(shù)據(jù)區(qū)間中。數(shù)據(jù)歸約則是在盡可能保證數(shù)據(jù)完整性的基礎(chǔ)上,將數(shù)據(jù)以其他方式進行表示,以減少數(shù)據(jù)存儲空間,使挖掘過程更有效。常用的歸約策略有:數(shù)據(jù)立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮和離散化等!
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學概述
- >
【精裝繪本】畫給孩子的中國神話
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術(shù)叢書(紅燭學術(shù)叢書)
- >
唐代進士錄
- >
名家?guī)阕x魯迅:朝花夕拾
- >
史學評論
- >
隨園食單