-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學習
-
>
Unreal Engine 4藍圖完全學習教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應用從入門到精通-(附贈1DVD.含語音視頻教學+辦公模板+PDF電子書)
基于云計算的數(shù)據(jù)科學 版權(quán)信息
- ISBN:9787519840136
- 條形碼:9787519840136 ; 978-7-5198-4013-6
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
基于云計算的數(shù)據(jù)科學 本書特色
在本書中,你將學到:
使用App Engine應用實現(xiàn)自動化定期數(shù)據(jù)攝取。
在Google Data Studio中創(chuàng)建并生成數(shù)據(jù)儀表板。
構(gòu)建實時數(shù)據(jù)分析管道,實現(xiàn)流式數(shù)據(jù)分析。
使用Google BigQuery實現(xiàn)可交互式數(shù)據(jù)探索。
在Cloud Dataproc群集上創(chuàng)建貝葉斯模型。
使用Spark構(gòu)建邏輯回歸機器學習模型。
使用Cloud Dataflow數(shù)據(jù)管道計算時間聚合特征。
使用TensorFlow構(gòu)建高性能預測模型。在本書中,你將學到:
使用App Engine應用實現(xiàn)自動化定期數(shù)據(jù)攝取。
在Google Data Studio中創(chuàng)建并生成數(shù)據(jù)儀表板。
構(gòu)建實時數(shù)據(jù)分析管道,實現(xiàn)流式數(shù)據(jù)分析。
使用Google BigQuery實現(xiàn)可交互式數(shù)據(jù)探索。
在Cloud Dataproc群集上創(chuàng)建貝葉斯模型。
使用Spark構(gòu)建邏輯回歸機器學習模型。
使用Cloud Dataflow數(shù)據(jù)管道計算時間聚合特征。
使用TensorFlow構(gòu)建高性能預測模型。
將你的模型部署為微服務,并且從批處理和實時數(shù)據(jù)管道中使用它。
基于云計算的數(shù)據(jù)科學 內(nèi)容簡介
本書將帶領(lǐng)你了解如何使用Google云計算平臺,輕松構(gòu)建復雜的統(tǒng)計和機器學習解決方案,解決實際業(yè)務問題。本書作為一本動手指南,為開發(fā)人員展示了如何在數(shù)據(jù)科學領(lǐng)域?qū)崿F(xiàn)端到端的數(shù)據(jù)管道,以及如何在Google云計算平臺上使用統(tǒng)計和機器學習的方法和工具。通過閱讀本書,你將學習多種數(shù)據(jù)科學方法,并使用這些方法在示例項目上制定業(yè)務決策。隨后,你就可以在Google云計算平臺上針對自己的項目構(gòu)建統(tǒng)計和機器學習解決方案了,同時探索該平臺為數(shù)據(jù)科學提供的更多革命性和協(xié)作特性。“Lak熟練地將現(xiàn)代數(shù)據(jù)科學的技術(shù)、工具和技巧提煉成了一份清晰而實用的指南,對于這一領(lǐng)域,我想不出比這更好的辦法了。針對Google在數(shù)據(jù)科學領(lǐng)域的服務,Lak提供了*指南,我認為這份指南可以讓讀者受益頗深,進而能夠從數(shù)據(jù)中獲取10倍的數(shù)據(jù)價值和洞察力。”—— Miles WardGoogle 云計算平臺解決方案主管
基于云計算的數(shù)據(jù)科學 目錄
前言 1
第 1 章 用數(shù)據(jù)做出更好的決策 9
許多相似的決策 11
數(shù)據(jù)工程師的角色 12
云計算讓數(shù)據(jù)工程師成為可能 14
云計算使數(shù)據(jù)科學能力得到倍增 18
用案例研究揭示難解的真相 20
基于概率的決策 21
數(shù)據(jù)和工具 27
代碼入門 28
本章總結(jié) 30
第 2 章 將數(shù)據(jù)攝取到云端 31
航空公司準點數(shù)據(jù) 31
可知性 33
訓練 – 服務偏差 34
下載程序 35
數(shù)據(jù)集屬性36
為什么不就地存儲數(shù)據(jù)? 38
向上擴展 40
水平擴展 42
使用 Colossus 和 Jupiter 讓數(shù)據(jù)存放在原位 44
攝取數(shù)據(jù) 47
對 Web 表單進行反向工程 48
下載數(shù)據(jù)集51
數(shù)據(jù)探索和清理 53
將數(shù)據(jù)上傳到 Google 云端存儲 55
每月下載計劃 58
使用 Python 攝取數(shù)據(jù) 61
Flask Web App 68
在 App Engine 上運行 69
確保 URL 的安全 70
計劃 Cron 任務 70
本章總結(jié) 73
代碼實驗 74
第 3 章 創(chuàng)建引人注目的儀表板 76
使用數(shù)據(jù)儀表板對模型進行解釋 77
為什么要先構(gòu)建數(shù)據(jù)儀表板? 79
準確、忠實于數(shù)據(jù)且良好的設(shè)計 80
將數(shù)據(jù)加載到 Google Cloud SQL 83
創(chuàng)建 Google Cloud SQL 實例 83
與 Google 云計算平臺交互84
控制對 MySQL 的訪問 86
創(chuàng)建表 87
向表中填充數(shù)據(jù) 89
建立**個模型 90
應急表 91
閾值優(yōu)化 92
機器學習 93
構(gòu)建數(shù)據(jù)儀表板 94
Data Studio 入門 94
創(chuàng)建圖表 96
為*終用戶添加控件 98
用餅圖顯示所占比例 100
解釋應急表105
本章總結(jié) 107
第 4 章 流數(shù)據(jù):發(fā)布和攝取 109
設(shè)計事件饋送 109
時間校正 112
Apache Beam/Cloud Dataflow 113
解析機場數(shù)據(jù) 115
添加時區(qū)信息 116
將時間轉(zhuǎn)換為 UTC 117
修正日期 120
創(chuàng)建事件 121
在云中運行數(shù)據(jù)管道 122
將事件流發(fā)布到 Cloud Pub/Sub 126
獲取要發(fā)布的數(shù)據(jù)記錄 129
對數(shù)據(jù)記錄進行分頁 130
構(gòu)建事件集合 130
發(fā)布事件集合 131
實時流式處理 132
Java Dataflow 中的流式數(shù)據(jù) 133
執(zhí)行流數(shù)據(jù)處理 138
使用 BigQuery 分析流式數(shù)據(jù) 140
實時數(shù)據(jù)儀表板 141
本章總結(jié) 144
第 5 章 交互式數(shù)據(jù)探索 145
探索性數(shù)據(jù)分析 146
將航班數(shù)據(jù)加載到 BigQuery 中 148
無服務器列式數(shù)據(jù)庫的優(yōu)點 148
訪問控制 151
聯(lián)合查詢 156
攝取 CSV 文件 158
Cloud Datalab 中的探索性數(shù)據(jù)分析 164
Jupyter 筆記本 165
Cloud Datalab 166
在 Cloud Datalab 中安裝軟件包 169
適用于 Google 云計算平臺的 Jupyter 魔術(shù)命令 170
質(zhì)量控制 176
反常的數(shù)值176
清除異常數(shù)據(jù):大數(shù)據(jù)是不同的 178
不同出發(fā)延誤條件下的抵達延誤 182
概率決策閾值的應用 184
經(jīng)驗概率分布函數(shù) 185
答案 187
評估模型 188
隨機亂序分組 188
按日期分割189
訓練和測試191
本章總結(jié) 196
第 6 章 Cloud Dataproc上的 貝葉斯分類器 197
MapReduce 和 Hadoop 生態(tài)系統(tǒng) 197
MapReduce 的工作原理 198
Apache Hadoop 200
Google Cloud Dataproc200
需要更高級的工具 202
關(guān)注任務,而不是集群 204
初始化操作205
使用 Spark SQL 進行量化 206
Cloud Dataproc 上的 Google Cloud Datalab 208
使用 BigQuery 進行獨立檢查 209
Google Cloud Datalab 中的 Spark SQL 211
直方圖均衡化 215
動態(tài)調(diào)整群集大小 219
使用 Pig 實現(xiàn)貝葉斯分類 222
在 Cloud Dataproc 上運行 Pig 任務 224
將日期限制在訓練數(shù)據(jù)集中 225
決策標準 226
對貝葉斯模型進行評估 229
本章總結(jié) 231
第 7 章 機器學習:Spark上的邏輯回歸 233
邏輯回歸 234
Spark 機器學習庫 237
開始使用 Spark 機器學習 238
Spark 邏輯回歸 239
創(chuàng)建訓練數(shù)據(jù)集 241
處理邊界情況 243
創(chuàng)建訓練示例 245
訓練 246
使用模型進行預測 249
對模型進行評估 250
特征工程 253
實驗框架 254
創(chuàng)建保留數(shù)據(jù)集 257
特性點的選擇 258
特征點的縮放和剪切 261
特征轉(zhuǎn)換 263
變量分類 267
可擴展、可重復和實時性 269
本章總結(jié) 270
第 8 章 時間窗化的聚合特征 272
平均時間的需求 272
Java 中的 Dataflow 274
建立開發(fā)環(huán)境 275
使用 Beam 過濾數(shù)據(jù) 276
數(shù)據(jù)管道的控制選項和文本 I/O 280
在云端運行281
解析為對象283
計算平均時間 286
分組及合并286
并行執(zhí)行和側(cè)面輸入 289
調(diào)試 291
BigQueryIO 292
對航班對象進行轉(zhuǎn)換 294
批處理模式下的滑動窗口計算 295
在云端運行297
監(jiān)控、故障排除和性能調(diào)整 299
數(shù)據(jù)管道的故障排除 301
側(cè)面輸入的限制 302
重新設(shè)計數(shù)據(jù)管道 305
刪除重復項307
本章總結(jié) 310
第 9 章 使用TensorFlow的 機器學習分類器 312
使用更復雜的模型 313
將數(shù)據(jù)讀入 TensorFlow 317
建立實驗 322
線性分類器323
訓練和評估的輸入函數(shù) 325
服務輸入函數(shù) 326
創(chuàng)建實驗 326
執(zhí)行訓練 327
云中的分布式訓練 329
對 ML 模型進行改進 331
深度神經(jīng)網(wǎng)絡(luò)模型 332
嵌入 335
寬深模型 337
超參數(shù)調(diào)整341
部署模型 349
使用模型預測 350
對該模型的解釋 351
本章總結(jié) 353
第 10章 實時機器學習 355
調(diào)用預測服務 356
用于服務請求和響應的 Java 類357
發(fā)送請求并解析響應 359
預測服務的客戶端 360
將預測結(jié)果添加到航班信息 361
批量輸入和輸出 361
數(shù)據(jù)處理管道 363
識別無效的服務響應 364
批量處理服務請求 365
流式數(shù)據(jù)管道 367
扁平化 PCollections 368
執(zhí)行流式數(shù)據(jù)管道 369
延遲的和無序的數(shù)據(jù)記錄 371
水印和觸發(fā)器 376
事務,吞吐量和延遲 378
幾種可選的流式接收器 379
Cloud Bigtable 380
設(shè)計表 382
設(shè)計行鍵 383
流式傳輸至 Cloud Bigtable 384
查詢 Cloud Bigtable 中的數(shù)據(jù) 386
評估模型的性能 387
持續(xù)訓練的必要性 388
評估管道 389
性能評估 391
邊際分布 391
檢查模型的行為 393
識別行為變化 396
本章總結(jié) 398
全書總結(jié) 398
附錄 有關(guān)機器學習數(shù)據(jù)集中敏感數(shù)據(jù)的注意事項 401
基于云計算的數(shù)據(jù)科學 作者簡介
Valliappa Lakshmanan是Google云計算平臺專家服務部門的技術(shù)主管。他希望將機器學習普及化,讓任何人、從任何地方,在無需深入了解統(tǒng)計學、編程知識,也無需購買大量硬件的情況下使用Google云平臺提供的卓越架構(gòu)。
- >
我與地壇
- >
伯納黛特,你要去哪(2021新版)
- >
上帝之肋:男人的真實旅程
- >
月亮與六便士
- >
我從未如此眷戀人間
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
有舍有得是人生
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學概述