書馨卡幫你省薪 2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊
> >
數(shù)據(jù)科學(xué)理論與實踐-(第2版)

數(shù)據(jù)科學(xué)理論與實踐-(第2版)

作者:朝樂門
出版社:清華大學(xué)出版社出版時間:2019-09-01
開本: 16開 頁數(shù): 369
本類榜單:教材銷量榜
中 圖 價:¥38.4(5.5折) 定價  ¥69.8 登錄后可看到會員價
加入購物車 收藏
運費6元,滿39元免運費
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

數(shù)據(jù)科學(xué)理論與實踐-(第2版) 版權(quán)信息

  • ISBN:9787302531913
  • 條形碼:9787302531913 ; 978-7-302-53191-3
  • 裝幀:平裝-膠訂
  • 冊數(shù):暫無
  • 重量:暫無
  • 所屬分類:>

數(shù)據(jù)科學(xué)理論與實踐-(第2版) 本書特色

重點介紹數(shù)據(jù)科學(xué)中的新理論和代表性實踐,填補數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的核心教材的空白。主要內(nèi)容包括:基礎(chǔ)理論(術(shù)語定義、研究目的、發(fā)展簡史、理論體系、基本原則、數(shù)據(jù)科學(xué)家)、理論基礎(chǔ)(數(shù)據(jù)科學(xué)的學(xué)科地位、統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)可視化)、流程與方法(基本歷程、數(shù)據(jù)加工、數(shù)據(jù)審計、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)故事化、項目管理)、技術(shù)與工具(技術(shù)體系、MapReduce、Hadoop、Spark、NoSQL與NewSQL、R與Python)、數(shù)據(jù)產(chǎn)品及開發(fā)(主要特征、關(guān)鍵活動、數(shù)據(jù)柔術(shù)、數(shù)據(jù)能力、數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理)、典型案例及實踐等

數(shù)據(jù)科學(xué)理論與實踐-(第2版) 內(nèi)容簡介

(1)國家精品開放在線課程《數(shù)據(jù)科學(xué)導(dǎo)論》的配套教材(2)一本系統(tǒng)講解全球范圍內(nèi)的數(shù)據(jù)科學(xué)的新理論與代表性實踐的教材;

數(shù)據(jù)科學(xué)理論與實踐-(第2版) 目錄

目錄
第1章基礎(chǔ)理論 如何開始學(xué)習(xí) 1.1術(shù)語定義 1.2研究目的 1.3研究視角 1.4發(fā)展簡史 1.5理論體系 1.6基本原則 1.7相關(guān)理論 1.8人才類型 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第2章理論基礎(chǔ) 如何開始學(xué)習(xí) 2.1數(shù)據(jù)科學(xué)的學(xué)科地位 2.2統(tǒng)計學(xué) 2.3機器學(xué)習(xí) 2.4數(shù)據(jù)可視化 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第3章流程與方法 如何開始學(xué)習(xí) 3.1基本流程 3.2數(shù)據(jù)加工 3.3數(shù)據(jù)審計 3.4數(shù)據(jù)分析 3.5數(shù)據(jù)可視化 3.6數(shù)據(jù)故事化 3.7數(shù)據(jù)科學(xué)項目管理 3.8數(shù)據(jù)科學(xué)中的常見錯誤 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第4章技術(shù)與工具 如何開始學(xué)習(xí) 4.1數(shù)據(jù)科學(xué)的技術(shù)體系 4.2MapReduce 4.3Hadoop 4.4Spark 4.5NoSQL與NewSQL 4.6R與Python 4.7發(fā)展趨勢 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第5章數(shù)據(jù)產(chǎn)品及開發(fā) 如何開始學(xué)習(xí) 5.1定義 5.2主要特征 5.3關(guān)鍵活動 5.4數(shù)據(jù)柔術(shù) 5.5數(shù)據(jù)能力 5.6數(shù)據(jù)戰(zhàn)略 5.7數(shù)據(jù)治理 5.8數(shù)據(jù)安全、隱私、道德與倫理 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第6章典型案例及實踐 如何開始學(xué)習(xí) 6.1統(tǒng)計分析 6.2機器學(xué)習(xí) 6.3數(shù)據(jù)可視化 6.4Spark編程 6.52012年美國總統(tǒng)大選 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 附錄A本書例題的R語言版代碼 附錄B數(shù)據(jù)科學(xué)的重要資源 附錄C術(shù)語索引 后記
圖目錄
圖11DIKW金字塔模型3 圖12數(shù)據(jù)與數(shù)值的區(qū)別4 圖13數(shù)字信號與模擬信號4 圖142008—2015年全球數(shù)據(jù)規(guī)模及類型的估計6 圖15大數(shù)據(jù)的特征7 圖16大數(shù)據(jù)的本質(zhì)8 圖17人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別與聯(lián)系10 圖18DIKUW模型及應(yīng)用11 圖19數(shù)據(jù)洞見12 圖110業(yè)務(wù)數(shù)據(jù)化與數(shù)據(jù)業(yè)務(wù)化12 圖111常用驅(qū)動方式13 圖112數(shù)據(jù)的層次性13 圖113大數(shù)據(jù)生態(tài)系統(tǒng)示意圖14 圖114數(shù)據(jù)科學(xué)的新研究視角15 圖115Gartner技術(shù)成熟度曲線16 圖116數(shù)據(jù)科學(xué)的萌芽期(1974—2009年)17 圖117數(shù)據(jù)科學(xué)的快速發(fā)展期(2010—2013年)18 圖118數(shù)據(jù)科學(xué)的逐漸成熟期(2014年至今)19 圖119數(shù)據(jù)科學(xué)的理論體系20 圖120數(shù)據(jù)科學(xué)的主要內(nèi)容20 圖121數(shù)據(jù)科學(xué)的“三世界原則”22 圖122數(shù)據(jù)科學(xué)的“三個要素”及“3C精神”23 圖123計算密集型應(yīng)用與數(shù)據(jù)密集型應(yīng)用的區(qū)別24 圖124數(shù)據(jù)范式與知識范式的區(qū)別25 圖125數(shù)據(jù)管理范式的變化25 圖126數(shù)據(jù)的“資產(chǎn)”屬性26 圖127常用驅(qū)動方式28 圖128CAPTCHA方法的應(yīng)用28 圖129ReCAPTCHA項目29 圖130數(shù)據(jù)與算法之間的關(guān)系30 圖131BellKors Pragmatic Chaos團隊獲得Netflix獎30 圖132Netflix獎公測結(jié)果31 圖133數(shù)據(jù)科學(xué)與商務(wù)智能的區(qū)別與聯(lián)系32 圖134數(shù)據(jù)科學(xué)與數(shù)據(jù)工程在企業(yè)應(yīng)用中的區(qū)別與聯(lián)系33 圖135數(shù)據(jù)科學(xué)人才類型及其收入33 圖136RStudio中編輯Markdown的窗口35 圖137數(shù)據(jù)科學(xué)家團隊38 圖138大數(shù)據(jù)人才應(yīng)具備的不同知識結(jié)構(gòu)40 圖139學(xué)習(xí)數(shù)據(jù)科學(xué)的四則原則43 圖21數(shù)據(jù)科學(xué)的理論基礎(chǔ)50 圖22統(tǒng)計方法的分類(行為目的與思路方式視角)52 圖23統(tǒng)計學(xué)中的數(shù)據(jù)推斷53 圖24數(shù)據(jù)統(tǒng)計方法的類型(方法論視角)53 圖25數(shù)據(jù)統(tǒng)計基本方法54 圖26元分析與基本分析54 圖27GFT預(yù)測與美國疾病控制中心數(shù)據(jù)的對比55 圖28GFT估計與實際數(shù)據(jù)的誤差(2013年2月)56 圖29大數(shù)據(jù)時代的思維模式的轉(zhuǎn)變58 圖210西洋雙陸棋58 圖211機器人駕駛58 圖212機器學(xué)習(xí)的基本思路59 圖213機器學(xué)習(xí)的三要素61 圖214機器學(xué)習(xí)的類型62 圖215KNN算法的基本步驟63 圖216決策樹示例——識別鳥類65 圖217感知器示例67 圖218前向神經(jīng)網(wǎng)絡(luò)67 圖219歸納學(xué)習(xí)與分析學(xué)習(xí)70 圖220增強學(xué)習(xí)70 圖221機器學(xué)習(xí)的類型71 圖222IBM Watson72 圖223Pepper機器人73 圖224機器學(xué)習(xí)中的數(shù)據(jù)73 圖225Anscombe四組數(shù)據(jù)的可視化77 圖226John Snow的鬼地圖(Ghost Map)78 圖227在Tableau中加利福尼亞州政府收入來源數(shù)據(jù)的可視化79 圖31數(shù)據(jù)科學(xué)的基本流程83 圖32量化自我84 圖33規(guī)整數(shù)據(jù)與干凈數(shù)據(jù)的區(qū)別85 圖34規(guī)整數(shù)據(jù)示意圖86 圖35殘差89 圖36數(shù)據(jù)分析的類型90 圖37Analytics 1.0~3.091 圖38數(shù)據(jù)加工方法92 圖39數(shù)據(jù)審計與數(shù)據(jù)清洗93 圖310缺失數(shù)據(jù)處理的步驟94 圖311冗余數(shù)據(jù)處理的方法94 圖312數(shù)據(jù)分箱處理的步驟與類型96 圖313均值平滑與邊界值平滑96 圖314內(nèi)容集成98 圖315結(jié)構(gòu)集成99 圖316數(shù)據(jù)脫敏處理100 圖317數(shù)據(jù)連續(xù)性的定義及重要性104 圖318可視化審計示例106 圖319Gartner分析學(xué)價值扶梯模型106 圖320冰激凌的銷售量與謀殺案的發(fā)生數(shù)量108 圖321數(shù)據(jù)分析的類型110 圖322拿破侖進軍俄國慘敗而歸的歷史事件的可視化111 圖323可視分析學(xué)的相關(guān)學(xué)科111 圖324可視分析學(xué)模型112 圖325數(shù)據(jù)可視化的方法體系113 圖326視覺圖形元素與視覺通道113 圖327雷達圖示例114 圖328齊美爾連帶114 圖329視覺隱喻的示例——美國政府機構(gòu)的設(shè)置114 圖330地鐵路線圖的創(chuàng)始人Henry Beck115 圖331Henry Beck的倫敦地鐵線路圖116 圖332視覺突出的示例116 圖333完圖法則的示例117 圖334視覺通道的選擇與展示119 圖335視覺通道的精確度對比119 圖336視覺通道的可辨認性——某公司產(chǎn)品銷售示意圖120 圖337視覺通道的可分離性差120 圖338上下文導(dǎo)致視覺假象1121 圖339上下文導(dǎo)致視覺假象2121 圖340對亮度和顏色的相對判斷容易造成視覺假象的示例121 圖341數(shù)據(jù)可視化表達與數(shù)據(jù)故事化描述126 圖342數(shù)據(jù)的故事化描述及故事的展現(xiàn)127 圖343項目管理的主要內(nèi)容130 圖344數(shù)據(jù)科學(xué)項目的基本流程131 圖412017大數(shù)據(jù)產(chǎn)業(yè)全景圖140 圖42大數(shù)據(jù)參考架構(gòu)142 圖43MapReduce執(zhí)行過程144 圖44MapReduce對中間數(shù)據(jù)的處理148 圖45以MapReduce為核心和以YARN為核心的軟件棧對比150 圖46下一代MapReduce框架151 圖47Apache的Hadoop項目151 圖48Hadoop生態(tài)系統(tǒng)152 圖49Hadoop MapReduce數(shù)據(jù)處理過程153 圖410Apache Hive官方網(wǎng)站155 圖411Apache Pig官方網(wǎng)站156 圖412Apache Mahout官方網(wǎng)站157 圖413Apache HBase官方網(wǎng)站157 圖414HBase與Hadoop項目158 圖415HBase的邏輯模型159 圖416Apache ZooKeeper官方網(wǎng)站160 圖417Apache Flume官方網(wǎng)站161 圖418Apache Sqoop官方網(wǎng)站162 圖419Spark 技術(shù)架構(gòu)163 圖420Spark的基本流程164 圖421Spark的執(zhí)行步驟169 圖422Lambda 架構(gòu)的主要組成部分171 圖423傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點與缺點172 圖424關(guān)系數(shù)據(jù)庫技術(shù)與NoSQL技術(shù)之間的關(guān)系174 圖425NoSQL數(shù)據(jù)分布的兩個基本途徑175 圖426分片處理176 圖427主從復(fù)制177 圖428對等復(fù)制178 圖429數(shù)據(jù)不一致性179 圖430CAP理論180 圖431Memcached官方網(wǎng)站183 圖432一致性散列的分配方式184 圖433服務(wù)器增加時的變化184 圖434云計算的演變過程188 圖435數(shù)據(jù)管理的新變化190 圖4362016—2018年數(shù)據(jù)科學(xué)相關(guān)項目中軟件產(chǎn)品的使用率(%)192 圖4372019年Gartner數(shù)據(jù)科學(xué)和機器學(xué)習(xí)平臺魔力194 圖51數(shù)據(jù)產(chǎn)品開發(fā)中的數(shù)據(jù)與數(shù)據(jù)柔術(shù)201 圖52知識范式與數(shù)據(jù)范式203 圖53數(shù)據(jù)產(chǎn)品的多樣性204 圖54數(shù)據(jù)產(chǎn)品的層次性205 圖55Google全球商機洞察(Google Global Market Finder)206 圖56數(shù)據(jù)產(chǎn)品鏈207 圖57傳統(tǒng)產(chǎn)品開發(fā)與數(shù)據(jù)產(chǎn)品開發(fā)的區(qū)別208 圖58D.J.Patil209 圖59UI(User Interface)設(shè)計方案與設(shè)計思維210 圖510Google搜索的用戶體驗211 圖511人與計算機圖像內(nèi)容識別能力的不同211 圖512Amazon Mechanical Turk平臺213 圖513一個HIT的生命周期213 圖514基于人與計算機的數(shù)據(jù)處理成本曲線214 圖515亞馬遜的數(shù)據(jù)產(chǎn)品——其他商家(Other Sellers)215 圖516LinkedIn的數(shù)據(jù)產(chǎn)品——你可能認識的人們(People you may know)216 圖517LinkedIn的數(shù)據(jù)產(chǎn)品——你的觀眾是誰216 圖518逆向交互定律217 圖519LinkedIn數(shù)據(jù)產(chǎn)品——崗位推薦219 圖520LinkedIn的數(shù)據(jù)產(chǎn)品——幫助你的朋友找到工作220 圖521Facebook的良好用戶體驗220 圖522DMM模型基本思路222 圖523CMM基本思想222 圖524CMM成熟度等級224 圖525DMM關(guān)鍵過程域225 圖526DMM層級劃分及描述227 圖527IDEAL模型229 圖528組織機構(gòu)數(shù)據(jù)管理能力成熟度評估結(jié)果的可視化229 圖529數(shù)據(jù)戰(zhàn)略與數(shù)據(jù)管理目標的區(qū)別230 圖530數(shù)據(jù)戰(zhàn)略的目標231 圖531數(shù)據(jù)戰(zhàn)略的側(cè)重點231 圖532數(shù)據(jù)戰(zhàn)略的范疇231 圖533數(shù)據(jù)管理與數(shù)據(jù)治理的區(qū)別233 圖534IBM提出的企業(yè)數(shù)據(jù)管理的范疇233 圖535數(shù)據(jù)治理的PDCA模型234 圖536DGI數(shù)據(jù)治理框架235 圖537P2DR模型237 圖538從歐洲大陸的空戰(zhàn)中返回的轟炸機238 圖61KMeans算法的基本步驟267 圖62奧巴馬2012年總統(tǒng)競選芝加哥總部287 圖63George Clooney288 圖64Sarah Jessica Parker288 圖65奧巴馬及“快速捐贈計劃”290 圖66奧巴馬通過Reddit與選民互動291 圖672012年美國總統(tǒng)競選財務(wù)數(shù)據(jù)官方網(wǎng)站292 圖A1女性體重與身高的線性回歸分析314 圖A2工資數(shù)據(jù)的可視化327 圖A3起飛延誤時間339 圖A4到達延誤時間339 圖A5捐助人職業(yè)、黨派及捐助額度分析352 圖A6分箱處理后的捐款數(shù)據(jù)可視化353 圖A7捐款日期與金額的可視化354 圖A8捐款月份與金額變化分析355 圖A9投票結(jié)果的可視化357
表目錄
表11結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)的區(qū)別與聯(lián)系5 表12某數(shù)據(jù)科學(xué)家的畫像(Profile)37 表21參數(shù)估計與假設(shè)檢驗的主要區(qū)別53 表22統(tǒng)計學(xué)與機器學(xué)習(xí)的術(shù)語對照表57 表23機器學(xué)習(xí)的相關(guān)學(xué)科61 表24已知6部電影的類型及其中出現(xiàn)的接吻次數(shù)和打斗次數(shù)64 表25已知電影與未知電影的距離64 表26分析學(xué)習(xí)和歸納學(xué)習(xí)的比較70 表27Anscombe的四組數(shù)據(jù)(Anscombes Quartet)76 表31測試數(shù)據(jù)A86 表32測試數(shù)據(jù)B86 表33測試數(shù)據(jù)C86 表34Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(規(guī)整化處理之前)87 表35Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(規(guī)整化處理之后)87 表36探索性統(tǒng)計中常用的集中趨勢統(tǒng)計量89 表37探索性統(tǒng)計中常用的離散程度統(tǒng)計量89 表38探索性統(tǒng)計中常用的數(shù)據(jù)分布統(tǒng)計量89 表39常見的數(shù)據(jù)變換策略97 表310十進制**數(shù)字的使用概率103 表311數(shù)據(jù)分析中常見錯誤109 表312數(shù)據(jù)類型及所支持的操作類型118 表313數(shù)據(jù)類型與視覺通道的對應(yīng)關(guān)系118 表314數(shù)據(jù)故事化描述應(yīng)遵循的基本原則128 表315數(shù)據(jù)科學(xué)項目中的主要角色及其任務(wù)130 表41Transformation常用函數(shù)166 表42Action常用函數(shù)166 表43RDD的存儲級別167 表44Spark數(shù)據(jù)類型和R數(shù)據(jù)類型之間的映射關(guān)系170 表45較有代表性的云數(shù)據(jù)庫產(chǎn)品174 表46NoSQL數(shù)據(jù)庫中常用的數(shù)據(jù)模型175 表47R與Python對比186 表48云計算的基本類型189 表49排名前10位數(shù)據(jù)科學(xué)產(chǎn)品的使用率及變化情況/4 表51數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)加工的區(qū)別202 表52Google公司的十大產(chǎn)品與服務(wù)202 表53數(shù)據(jù)管理成熟度模型的過程域分類226 表54信息系統(tǒng)安全等級及保護基本要求237 表55腎結(jié)石治療數(shù)據(jù)分析——兩種治療方案的分別統(tǒng)計240 表56兩種治療方案的匯總統(tǒng)計240 表61數(shù)據(jù)集women248 表62Protein數(shù)據(jù)集266 表63工資信息274 表64各字段的名稱及含義292 表A1Spark版本差異性331 表A2Spark與R的數(shù)據(jù)類型對比332 表A3SparkR與sparklyr比較340
展開全部

數(shù)據(jù)科學(xué)理論與實踐-(第2版) 作者簡介

中國人民大學(xué)副教授,博士生導(dǎo)師;國家精品在線開放課程《數(shù)據(jù)科學(xué)導(dǎo)論》負責(zé)人;中國計算機學(xué)會信息系統(tǒng)專委員會委員、中國軟件行業(yè)協(xié)會中國軟件專業(yè)人才培養(yǎng)工程專家委員、全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟專家委員會副主任、全國高校大數(shù)據(jù)教育聯(lián)盟大數(shù)據(jù)教材專家指導(dǎo)委員會委員;

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服