書馨卡幫你省薪 2024個(gè)人購書報(bào)告 2024中圖網(wǎng)年度報(bào)告
歡迎光臨中圖網(wǎng) 請 | 注冊

大數(shù)據(jù)分析與計(jì)算

出版社:清華大學(xué)出版社出版時(shí)間:2018-03-01
開本: 16開 頁數(shù): 485
中 圖 價(jià):¥64.1(7.2折) 定價(jià)  ¥89.0 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
運(yùn)費(fèi)6元,滿39元免運(yùn)費(fèi)
?新疆、西藏除外
本類五星書更多>

大數(shù)據(jù)分析與計(jì)算 版權(quán)信息

大數(shù)據(jù)分析與計(jì)算 本書特色

大數(shù)據(jù)應(yīng)用已成為行業(yè)熱點(diǎn)和產(chǎn)業(yè)發(fā)展新增長點(diǎn),數(shù)據(jù)科學(xué)與計(jì)算技術(shù)也是*的前沿領(lǐng)域,其中,大數(shù)據(jù)計(jì)算分析提供了核心的技術(shù)支撐。本書從大數(shù)據(jù)計(jì)算系統(tǒng)的三個(gè)層次對數(shù)據(jù)模型、處理算法、計(jì)算模型與架構(gòu)、開發(fā)技術(shù)標(biāo)準(zhǔn)等內(nèi)容進(jìn)行了綜合性的介紹,重點(diǎn)闡述了各類數(shù)據(jù)分析算法和MapReduce,圖并行計(jì)算,交互式處理,流計(jì)算,內(nèi)存計(jì)算等計(jì)算架構(gòu)。本書適合作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)計(jì)算技術(shù)、計(jì)算機(jī)科學(xué)與技術(shù)、互聯(lián)網(wǎng)應(yīng)用系統(tǒng)、物聯(lián)網(wǎng)工程等專業(yè)相關(guān)課程的教材。

大數(shù)據(jù)分析與計(jì)算 內(nèi)容簡介

1)對大數(shù)據(jù)計(jì)算的標(biāo)準(zhǔn)、模型、計(jì)算架構(gòu)、開發(fā)技術(shù)體系做了一個(gè)較完整的論述和總結(jié),適宜于作為計(jì)算機(jī)和軟件工程專業(yè)高年級課程或研究生課程的教材; 2)本書也對大數(shù)據(jù)計(jì)算架構(gòu)和開發(fā)平臺及技術(shù)進(jìn)行了論述,給出了相關(guān)領(lǐng)域的工程案例,也可作為IT技術(shù)人士的專業(yè)參考書。

大數(shù)據(jù)分析與計(jì)算 目錄

目錄 第1章緒論 1.1數(shù)據(jù)與數(shù)據(jù)科學(xué) 1.2大數(shù)據(jù)概念 1.3大數(shù)據(jù)技術(shù)特征 參考文獻(xiàn) 習(xí)題 第2章大數(shù)據(jù)計(jì)算體系 2.1大數(shù)據(jù)計(jì)算架構(gòu) 2.2數(shù)據(jù)存儲(chǔ)系統(tǒng) 2.2.1數(shù)據(jù)清洗與建模 2.2.2分布式文件系統(tǒng) 2.2.3NoSQL數(shù)據(jù)庫 2.2.4統(tǒng)一數(shù)據(jù)訪問接口 2.3數(shù)據(jù)處理平臺 2.3.1數(shù)據(jù)分析算法 2.3.2計(jì)算處理模型 2.3.3計(jì)算平臺與引擎 2.4數(shù)據(jù)應(yīng)用系統(tǒng) 2.4.1大數(shù)據(jù)應(yīng)用領(lǐng)域 2.4.2大數(shù)據(jù)解決方案 參考文獻(xiàn) 習(xí)題 第3章大數(shù)據(jù)標(biāo)準(zhǔn)與模式 3.1大數(shù)據(jù)標(biāo)準(zhǔn)體系 3.2大數(shù)據(jù)計(jì)算模式 參考文獻(xiàn) 習(xí)題 第4章數(shù)據(jù)采集方法 4.1系統(tǒng)日志采集 4.1.1日志采集的目的 4.1.2日志采集過程 4.2網(wǎng)絡(luò)數(shù)據(jù)采集 4.2.1網(wǎng)絡(luò)爬蟲工作原理 4.2.2網(wǎng)頁搜索策略 4.2.3網(wǎng)頁分析算法 4.2.4網(wǎng)絡(luò)爬蟲框架 4.3數(shù)據(jù)采集接口 參考文獻(xiàn) 習(xí)題 第5章數(shù)據(jù)清洗與規(guī)約方法 5.1數(shù)據(jù)預(yù)處理研究現(xiàn)狀 5.1.1數(shù)據(jù)清洗的研究現(xiàn)狀 5.1.2數(shù)據(jù)規(guī)約的研究現(xiàn)狀 5.2數(shù)據(jù)質(zhì)量問題分類 5.2.1單數(shù)據(jù)源的問題 5.2.2多數(shù)據(jù)源的問題 5.3數(shù)據(jù)清洗技術(shù) 5.3.1重復(fù)記錄清洗 5.3.2消除噪聲數(shù)據(jù) 5.3.3缺失值清洗 5.4數(shù)據(jù)歸約 5.4.1維歸約 5.4.2屬性選擇 5.4.3離散化方法 5.5數(shù)據(jù)清洗工具 參考文獻(xiàn) 習(xí)題 第6章數(shù)據(jù)分析算法 6.1C4.5算法 6.1.1算法描述 6.1.2屬性選擇度量 6.1.3其他特征 6.2k均值算法 6.3支持向量機(jī) 6.4Apriori算法 6.5EM算法 6.5.1案例: 估計(jì)k個(gè)高斯分布的均值 6.5.2EM算法步驟 6.6PageRank算法 6.6.1PageRank的核心思想 6.6.2PageRank的計(jì)算過程 6.7AdaBoost算法 6.7.1Boosting算法的發(fā)展歷史 6.7.2AdaBoost算法及其分析 6.8k鄰近算法 6.9樸素貝葉斯 6.9.1樸素貝葉斯分類器 6.9.2貝葉斯網(wǎng)絡(luò) 6.10分類回歸樹算法 6.10.1建立回歸樹 6.10.2剪枝過程 參考文獻(xiàn) 習(xí)題 第7章文本讀寫技術(shù) 7.1讀取文本文件 7.1.1讀取txt文件 7.1.2讀取csv文件 7.2寫入文本文件 7.3處理二進(jìn)制數(shù)據(jù) 7.4數(shù)據(jù)庫的使用 7.4.1數(shù)據(jù)庫的連接 7.4.2執(zhí)行SQL語句 7.4.3選擇和打印 7.4.4動(dòng)態(tài)插入 7.4.5update操作 參考文獻(xiàn) 習(xí)題 第8章數(shù)據(jù)處理技術(shù) 8.1合并數(shù)據(jù)集 8.1.1索引上的合并 8.1.2軸向連接 8.1.3合并重疊數(shù)據(jù) 8.2數(shù)據(jù)轉(zhuǎn)換 8.2.1移除重復(fù)數(shù)據(jù) 8.2.2利用函數(shù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換 8.2.3替換值 8.2.4重命名軸索引 8.2.5離散化數(shù)據(jù) 8.2.6檢測異常值 8.2.7排列和隨機(jī)采樣 8.2.8啞變量 8.3字符串操作 8.3.1內(nèi)置字符串方法 8.3.2正則表達(dá)式 8.3.3Pandas中矢量化的字符串函數(shù) 參考文獻(xiàn) 習(xí)題 第9章數(shù)據(jù)分析技術(shù) 9.1NumPy工具包 9.1.1創(chuàng)建數(shù)組 9.1.2打印數(shù)組 9.1.3基本運(yùn)算 9.1.4索引、切片和迭代 9.1.5形狀操作 9.1.6復(fù)制和視圖 9.1.7NumPy實(shí)用技巧 9.2Pandas工具包 9.2.1Series 9.2.2DataFrame 9.3ScikitLearn工具包 9.3.1邏輯回歸 9.3.2樸素貝葉斯 9.3.3k*近鄰 9.3.4決策樹 9.3.5支持向量機(jī) 9.3.6優(yōu)化算法參數(shù) 參考文獻(xiàn) 習(xí)題 第10章數(shù)據(jù)可視化技術(shù) 10.1Matplotlib繪圖 10.1.1Matplotlib API入門 10.1.2Figure和Subplot的畫圖方法 10.1.3調(diào)整Subplot周圍的間距 10.1.4顏色、標(biāo)記和線型的設(shè)置 10.1.5刻度、標(biāo)簽和圖例 10.2Mayavi2繪圖 10.2.1使用mlab快速繪圖 10.2.2Mayavi嵌入到界面中 10.3其他圖形化工具 參考文獻(xiàn) 習(xí)題 第11章Hadoop生態(tài)系統(tǒng) 11.1Hadoop系統(tǒng)架構(gòu) 11.2HDFS分布式文件系統(tǒng) 11.2.1HDFS體系結(jié)構(gòu) 11.2.2HDFS存儲(chǔ)結(jié)構(gòu) 11.2.3數(shù)據(jù)容錯(cuò)與恢復(fù) 11.2.4Hadoop/HDFS安裝 11.3分布式存儲(chǔ)架構(gòu) 11.3.1HBase系統(tǒng)架構(gòu) 11.3.2數(shù)據(jù)模型與存儲(chǔ)模式 11.3.3HBase數(shù)據(jù)讀寫 11.3.4數(shù)據(jù)倉庫工具Hive 11.3.5HBase安裝與配置 11.4HBase索引與檢索 11.4.1二次索引表機(jī)制 11.4.2二次索引技術(shù)方案 11.5資源管理與作業(yè)調(diào)度 11.5.1分布式協(xié)同管理組件ZooKeeper 11.5.2作業(yè)調(diào)度與工作流引擎Oozie 11.5.3集群資源管理框架YARN 參考文獻(xiàn) 習(xí)題 第12章MapReduce計(jì)算模型 12.1分布式并行計(jì)算系統(tǒng) 12.2MapReduce計(jì)算架構(gòu) 12.3鍵值對與輸入格式 12.4映射與化簡 12.5應(yīng)用編程接口 參考文獻(xiàn) 習(xí)題 第13章圖并行計(jì)算框架 13.1圖基本概念 13.2BSP模型 13.3Pregel圖計(jì)算引擎 13.4Hama開源框架 13.5應(yīng)用編程接口 參考文獻(xiàn) 習(xí)題 第14章交互式計(jì)算模式 14.1數(shù)據(jù)模型 14.2存儲(chǔ)結(jié)構(gòu) 14.3并行查詢 14.4開源實(shí)現(xiàn) 參考文獻(xiàn) 習(xí)題 第15章流計(jì)算系統(tǒng) 15.1流計(jì)算模型 15.2Storm計(jì)算架構(gòu) 15.3工作機(jī)制實(shí)現(xiàn) 15.4Storm編程接口 參考文獻(xiàn) 習(xí)題 第16章內(nèi)存計(jì)算模式 16.1分布式緩存體系 16.2內(nèi)存數(shù)據(jù)庫 16.3內(nèi)存云MemCloud 16.4Spark內(nèi)存計(jì)算 參考文獻(xiàn) 習(xí)題 第17章基于醫(yī)療數(shù)據(jù)的臨床決策分析應(yīng)用 17.1國內(nèi)外研究現(xiàn)狀及發(fā)展動(dòng)態(tài)分析 17.2技術(shù)路線和方案 參考文獻(xiàn) 習(xí)題 第18章基于醫(yī)保數(shù)據(jù)的預(yù)測分析應(yīng)用 18.1數(shù)據(jù)準(zhǔn)備階段 18.2模型變量選擇和轉(zhuǎn)換 18.2.1模型變量的選擇 18.2.2模型變量的轉(zhuǎn)換 18.2.3篩選模型變量 18.3建模過程 18.4模型效果 參考文獻(xiàn) 習(xí)題 第19章互聯(lián)網(wǎng)電商數(shù)據(jù)的分析應(yīng)用 19.1電商流程管理分析 19.1.1行業(yè)背景與業(yè)務(wù)問題 19.1.2分析方法與過程 19.2用戶消費(fèi)行為分析 19.2.1業(yè)務(wù)問題 19.2.2分析方法與過程 19.3送貨速度相關(guān)性分析 19.3.1業(yè)務(wù)問題 19.3.2分析方法與過程 19.4總結(jié) 參考文獻(xiàn) 習(xí)題 第20章金融和經(jīng)濟(jì)數(shù)據(jù)的分析應(yīng)用 20.1企業(yè)對創(chuàng)新經(jīng)濟(jì)活動(dòng)推動(dòng)的影響分析 20.1.1案例背景 20.1.2分析方法與過程 20.2信貸風(fēng)險(xiǎn)模型評估 20.3中小能源型企業(yè)的信用評價(jià)分析 20.3.1案例背景 20.3.2分析方法與過程 20.3.3分析結(jié)果 參考文獻(xiàn) 習(xí)題
展開全部
商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服