歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)

SRE(Google運(yùn)維解密)

出版社:電子工業(yè)出版社出版時(shí)間:2016-10-01
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 496
中 圖 價(jià):¥87.0(6.8折) 定價(jià)  ¥128.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車(chē) 收藏
運(yùn)費(fèi)6元,滿(mǎn)39元免運(yùn)費(fèi)
?新疆、西藏除外
本類(lèi)五星書(shū)更多>
買(mǎi)過(guò)本商品的人還買(mǎi)了

SRE(Google運(yùn)維解密) 版權(quán)信息

SRE(Google運(yùn)維解密) 內(nèi)容簡(jiǎn)介

大型軟件系統(tǒng)生命周期的絕大部分都處于“使用”階段,而非“設(shè)計(jì)”或“實(shí)現(xiàn)”階段。那么為什么我們卻總是認(rèn)為軟件工程應(yīng)該首要關(guān)注設(shè)計(jì)和實(shí)現(xiàn)呢?在本書(shū)中,Google SRE的關(guān)鍵成員解釋了他們是如何對(duì)軟件進(jìn)行生命周期的整體性關(guān)注的,以及為什么這樣做能夠幫助Google成功地構(gòu)建、部署、監(jiān)控和運(yùn)維世界上現(xiàn)存優(yōu)選的軟件系統(tǒng)。通過(guò)閱讀本書(shū),讀者可以學(xué)習(xí)到Google工程師在提高系統(tǒng)部署規(guī)模、改進(jìn)可靠性和資源利用效率方面的指導(dǎo)思想與具體實(shí)踐――這些都是可以立即直接應(yīng)用的寶貴經(jīng)驗(yàn)。任何一個(gè)想要?jiǎng)?chuàng)建、擴(kuò)展大規(guī)模集成系統(tǒng)的人都應(yīng)該閱讀本書(shū)。本書(shū)針對(duì)如何構(gòu)建一個(gè)可長(zhǎng)期維護(hù)的系統(tǒng)提供了很好寶貴的實(shí)踐經(jīng)驗(yàn)。

SRE(Google運(yùn)維解密) 目錄

目錄
前言 ................ xxxi
序言 ............... xxxv
第Ⅰ部分 概覽
第1 章 介紹..... 2
系統(tǒng)管理員模式 ... 2
Google 的解決之道:SRE ...................... 4
SRE 方法論 .......... 6
確保長(zhǎng)期關(guān)注研發(fā)工作 ................... 6
在保障服務(wù)SLO 的前提下*大化迭代速度 ....................... 7
監(jiān)控系統(tǒng) ......................................... 8
應(yīng)急事件處理 .................................. 8
變更管理 ...... 9
需求預(yù)測(cè)和容量規(guī)劃 ....................... 9
資源部署 .... 10
效率與性能. 10
小結(jié) ................... 10
第2 章 Google 生產(chǎn)環(huán)境:SRE 視角...... 11
硬件 ................... 11
管理物理服務(wù)器的系統(tǒng)管理軟件 .......... 13
管理物理服務(wù)器 ............................ 13
存儲(chǔ) ............ 14
網(wǎng)絡(luò) ............ 15
其他系統(tǒng)軟件 .... 16
分布式鎖服務(wù) ................................ 16
監(jiān)控與警報(bào)系統(tǒng) ............................ 16
軟件基礎(chǔ)設(shè)施 .... 17
研發(fā)環(huán)境 ............ 17
莎士比亞搜索:一個(gè)示范服務(wù) ............. 18
用戶(hù)請(qǐng)求的處理過(guò)程 ..................... 18
任務(wù)和數(shù)據(jù)的組織方式 ................. 19
第Ⅱ部分 指導(dǎo)思想
第3 章 擁抱風(fēng)險(xiǎn)................................ 23
管理風(fēng)險(xiǎn) ............ 23
度量服務(wù)的風(fēng)險(xiǎn) . 24
服務(wù)的風(fēng)險(xiǎn)容忍度 ................................ 25
辨別消費(fèi)者服務(wù)的風(fēng)險(xiǎn)容忍度 ...... 26
基礎(chǔ)設(shè)施服務(wù)的風(fēng)險(xiǎn)容忍度 ......... 28
使用錯(cuò)誤預(yù)算的目的 ............................ 30
錯(cuò)誤預(yù)算的構(gòu)建過(guò)程 ..................... 31
好處 ............ 32
第4 章 服務(wù)質(zhì)量目標(biāo)........................... 34
服務(wù)質(zhì)量術(shù)語(yǔ) .... 34
指標(biāo) ............ 34
目標(biāo) ............ 35
協(xié)議 ............ 36
指標(biāo)在實(shí)踐中的應(yīng)用 ............................ 37
運(yùn)維人員和*終用戶(hù)各關(guān)心什么 .. 37
指標(biāo)的收集. 37
匯總 ............ 38
指標(biāo)的標(biāo)準(zhǔn)化 ................................ 39
目標(biāo)在實(shí)踐中的應(yīng)用 ............................ 39
目標(biāo)的定義. 40
目標(biāo)的選擇. 40
控制手段 .... 42
SLO 可以建立用戶(hù)預(yù)期 ................ 42
協(xié)議在實(shí)踐中的應(yīng)用 ............................ 43
第5 章 減少瑣事................................ 44
瑣事的定義 ........ 44
為什么瑣事越少越好 ............................ 45
什么算作工程工作 ................................ 46
瑣事繁多是不是一定不好 ..................... 47
小結(jié) ................... 48
第6 章 分布式系統(tǒng)的監(jiān)控..................... 49
術(shù)語(yǔ)定義 ............ 49
為什么要監(jiān)控 .... 50
對(duì)監(jiān)控系統(tǒng)設(shè)置合理預(yù)期 ..................... 51
現(xiàn)象與原因 ........ 52
黑盒監(jiān)控與白盒監(jiān)控 ............................ 53
4 個(gè)黃金指標(biāo) ..... 53
關(guān)于長(zhǎng)尾問(wèn)題 .... 54
度量指標(biāo)時(shí)采用合適的精度 ................. 55
簡(jiǎn)化,直到不能再簡(jiǎn)化......................... 55
將上述理念整合起來(lái) ............................ 56
監(jiān)控系統(tǒng)的長(zhǎng)期維護(hù) ............................ 57
Bigtable SRE :警報(bào)過(guò)多的案例 ... 57
Gmail :可預(yù)知的、可腳本化的人工干預(yù) ........................ 58
長(zhǎng)跑 ............ 59
小結(jié) ................... 59
第7 章 Google 的自動(dòng)化系統(tǒng)的演進(jìn)...... 60
自動(dòng)化的價(jià)值 .... 60
一致性 ........ 60
平臺(tái)性 ........ 61
修復(fù)速度更快 ................................ 61
行動(dòng)速度更快 ................................ 62
節(jié)省時(shí)間 .... 62
自動(dòng)化對(duì)Google SRE 的價(jià)值 .............. 62
自動(dòng)化的應(yīng)用案例 ................................ 63
Google SRE 的自動(dòng)化使用案例 .... 63
自動(dòng)化分類(lèi)的層次結(jié)構(gòu) ................. 64
讓自己脫離工作:自動(dòng)化所有的東西 .. 66
舒緩疼痛:將自動(dòng)化應(yīng)用到集群上線中 ................................. 67
使用Prodtest 檢測(cè)不一致情況 ...... 68
冪等地解決不一致情況 ................. 69
專(zhuān)業(yè)化傾向. 71
以服務(wù)為導(dǎo)向的集群上線流程 ...... 72
Borg :倉(cāng)庫(kù)規(guī)模計(jì)算機(jī)的誕生 ............. 73
可靠性是*基本的功能......................... 74
建議 ................... 75
第8 章 發(fā)布工程................................ 76
發(fā)布工程師的角色 ................................ 76
發(fā)布工程哲學(xué) .... 77
自服務(wù)模型. 77
追求速度 .... 77
密閉性 ........ 77
強(qiáng)調(diào)策略和流程 ............................ 78
持續(xù)構(gòu)建與部署 . 78
構(gòu)建 ............ 78
分支 ............ 79
測(cè)試 ............ 79
打包 ............ 79
Rapid 系統(tǒng) .. 80
部署 ............ 81
配置管理 ............ 81
小結(jié) ................... 82
不僅僅只對(duì)Google 有用 ............... 83
一開(kāi)始就進(jìn)行發(fā)布工程 ................. 83
第9 章 簡(jiǎn)單化 85
系統(tǒng)的穩(wěn)定性與靈活性......................... 85
乏味是一種美德 . 86
我絕對(duì)不放棄我的代碼......................... 86
“負(fù)代碼行”作為一個(gè)指標(biāo) ................... 87
*小 API ............ 87
模塊化 ................ 87
發(fā)布的簡(jiǎn)單化 .... 88
小結(jié) ................... 88
第Ⅲ部分 *佳實(shí)踐
第10 章 基于時(shí)間序列數(shù)據(jù)進(jìn)行有效報(bào)警.. 93
Borgmon 的起源 94
應(yīng)用軟件的監(jiān)控埋點(diǎn) ............................ 95
監(jiān)控指標(biāo)的收集 . 96
時(shí)間序列數(shù)據(jù)的存儲(chǔ) ............................ 97
標(biāo)簽與向量. 98
Borg 規(guī)則計(jì)算 ... 99
報(bào)警 ................. 104
監(jiān)控系統(tǒng)的分片機(jī)制 .......................... 105
黑盒監(jiān)控 .......... 106
配置文件的維護(hù) .................................. 106
十年之后 .......... 108
第11 章 on-call 輪值....................... 109
介紹 ................. 109
on-call 工程師的一天 .......................... 110
on-call 工作平衡 ..................................111
數(shù)量上保持平衡 ...........................111
質(zhì)量上保持平衡 ...........................111
補(bǔ)貼措施 .. 112
安全感 .............. 112
避免運(yùn)維壓力過(guò)大 .............................. 114
運(yùn)維壓力過(guò)大 .............................. 114
奸詐的敵人―運(yùn)維壓力不夠 .... 115
小結(jié) ................. 115
第12 章 有效的故障排查手段................ 116
理論 ................. 117
實(shí)踐 ................. 119
故障報(bào)告 .. 119
定位 .......... 119
檢查 .......... 120
診斷 .......... 122
測(cè)試和修復(fù).................................. 124
神奇的負(fù)面結(jié)果 .................................. 125
治愈 .......... 126
案例分析 .......... 127
使故障排查更簡(jiǎn)單 .............................. 130
小結(jié) ................. 130
第13 章 緊急事件響應(yīng)........................ 131
當(dāng)系統(tǒng)出現(xiàn)問(wèn)題時(shí)怎么辦 ................... 131
測(cè)試導(dǎo)致的緊急事故 .......................... 132
細(xì)節(jié) .......... 132
響應(yīng) .......... 132
事后總結(jié) .. 132
變更部署帶來(lái)的緊急事故 ................... 133
細(xì)節(jié) .......... 133
事故響應(yīng) .. 134
事后總結(jié) .. 134
流程導(dǎo)致的嚴(yán)重事故 .......................... 135
細(xì)節(jié) .......... 135
災(zāi)難響應(yīng) .. 136
事后總結(jié) .. 136
所有的問(wèn)題都有解決方案 ................... 137
向過(guò)去學(xué)習(xí),而不是重復(fù)它 ............... 138
為事故保留記錄 .......................... 138
提出那些大的,甚至不可能的問(wèn)題:假如…… ............. 138
鼓勵(lì)主動(dòng)測(cè)試 .............................. 138
小結(jié) ................. 138
第14 章 緊急事故管理....................... 140
無(wú)流程管理的緊急事故....................... 140
對(duì)這次無(wú)流程管理的事故的剖析 ........ 141
過(guò)于關(guān)注技術(shù)問(wèn)題 ...................... 141
溝通不暢 .. 141
不請(qǐng)自來(lái) .. 142
緊急事故的流程管理要素 ................... 142
嵌套式職責(zé)分離 .......................... 142
控制中心 .. 143
實(shí)時(shí)事故狀態(tài)文檔 ...................... 143
明確公開(kāi)的職責(zé)交接 ................... 143
一次流程管理良好的事故 ................... 144
什么時(shí)候?qū)ν庑际鹿剩?144
小結(jié) ................. 145
第15 章 事后總結(jié):從失敗中學(xué)習(xí)......... 146
Google 的事后總結(jié)哲學(xué) ...................... 146
協(xié)作和知識(shí)共享 .................................. 148
建立事后總結(jié)文化 .............................. 149
小結(jié)以及不斷優(yōu)化 .............................. 151
第16 章 跟蹤故障..............................152
Escalator .......... 152
Outalator .......... 153
聚合 .......... 154
加標(biāo)簽 ...... 155
分析 .......... 155
未預(yù)料到的好處 .......................... 156
第17 章 測(cè)試可靠性...........................157
軟件測(cè)試的類(lèi)型 .................................. 158
傳統(tǒng)測(cè)試 .. 159
生產(chǎn)測(cè)試 .. 160
創(chuàng)造一個(gè)構(gòu)建和測(cè)試環(huán)境 ................... 163
大規(guī)模測(cè)試 ...... 165
測(cè)試大規(guī)模使用的工具 ............... 166
針對(duì)災(zāi)難的測(cè)試 .......................... 167
對(duì)速度的渴求 .............................. 168
發(fā)布到生產(chǎn)環(huán)境 .......................... 170
允許測(cè)試失敗 .............................. 170
集成 .......... 172
生產(chǎn)環(huán)境探針 .............................. 173
小結(jié) ................. 175
第18 章 SRE 部門(mén)中的軟件工程實(shí)踐.....176
為什么軟件工程項(xiàng)目對(duì)SRE 很重要 ... 176
Auxon 案例分析:項(xiàng)目背景和要解決的問(wèn)題 ........................ 177
傳統(tǒng)的容量規(guī)劃方法 ................... 177
解決方案:基于意圖的容量規(guī)劃 179
基于意圖的容量規(guī)劃 .......................... 180
表達(dá)產(chǎn)品意圖的先導(dǎo)條件 ........... 181
Auxon 簡(jiǎn)介 ................................. 182
需求和實(shí)現(xiàn):成功和不足 ........... 183
提升了解程度,推進(jìn)采用率 ....... 185
團(tuán)隊(duì)內(nèi)部組成 .............................. 187
在SRE 團(tuán)隊(duì)中培養(yǎng)軟件工程風(fēng)氣 ...... 187
在SRE 團(tuán)隊(duì)中建立起軟件工程氛圍:招聘與開(kāi)發(fā)時(shí)間 188
做到這一點(diǎn).................................. 189
小結(jié) ................. 190
第19 章 前端服務(wù)器的負(fù)載均衡............. 191
有時(shí)候硬件并不能解決問(wèn)題 ............... 191
使用DNS 進(jìn)行負(fù)載均衡 ..................... 192
負(fù)載均衡:虛擬IP.............................. 194
第20 章 數(shù)據(jù)中心內(nèi)部的負(fù)載均衡系統(tǒng)....197
理想情況 .......... 198
識(shí)別異常任務(wù):流速控制和跛腳鴨任務(wù) ............................... 199
異常任務(wù)的簡(jiǎn)單應(yīng)對(duì)辦法:流速控制............................ 199
一個(gè)可靠的識(shí)別異常任務(wù)的方法:跛腳鴨狀態(tài) ............. 200
利用劃分子集限制連接池大小 ........... 201
選擇合適的子集 .......................... 201
子集選擇算法一:隨機(jī)選擇 ....... 202
子集選擇算法二:確定性算法 .... 204
負(fù)載均衡策略 .. 206
簡(jiǎn)單輪詢(xún)算法 .............................. 206
*閑輪詢(xún)策略 .............................. 209
加權(quán)輪詢(xún)策略 .............................. 210
第21 章 應(yīng)對(duì)過(guò)載..............................212
QPS 陷阱 ......... 213
給每個(gè)用戶(hù)設(shè)置限制 .......................... 213
客戶(hù)端側(cè)的節(jié)流機(jī)制 .......................... 214
重要性 .............. 216
資源利用率信號(hào) .................................. 217
處理過(guò)載錯(cuò)誤 .. 217
決定何時(shí)重試 .............................. 218
連接造成的負(fù)載 .................................. 220
小結(jié) ................. 221
第22 章 處理連鎖故障....................... 223
連鎖故障產(chǎn)生的原因和如何從設(shè)計(jì)上避免 ............................ 224
服務(wù)器過(guò)載.................................. 224
資源耗盡 .. 225
服務(wù)不可用.................................. 228
防止軟件服務(wù)器過(guò)載 .......................... 228
隊(duì)列管理 .. 229
流量拋棄和優(yōu)雅降級(jí) ................... 230
重試 .......... 231
請(qǐng)求延遲和截止時(shí)間 ................... 234
慢啟動(dòng)和冷緩存 .................................. 236
保持調(diào)用棧永遠(yuǎn)向下 ................... 238
連鎖故障的觸發(fā)條件 .......................... 238
進(jìn)程崩潰 .. 239
進(jìn)程更新 .. 239
新的發(fā)布 .. 239
自然增長(zhǎng) .. 239
計(jì)劃中或計(jì)劃外的不可用 ........... 239
連鎖故障的測(cè)試 .................................. 240
測(cè)試直到出現(xiàn)故障,還要繼續(xù)測(cè)試 ............................... 240
測(cè)試*常用的客戶(hù)端 ................... 241
測(cè)試非關(guān)鍵性后端 ...................... 242
解決連鎖故障的立即步驟 ................... 242
增加資源 .. 242
停止健康檢查導(dǎo)致的任務(wù)死亡 .... 242
重啟軟件服務(wù)器 .......................... 242
丟棄流量 .. 243
進(jìn)入降級(jí)模式 .............................. 243
消除批處理負(fù)載 .......................... 244
消除有害的流量 .......................... 244
小結(jié) ................. 244
第23 章 管理關(guān)鍵狀態(tài):利用分布式共識(shí)來(lái)提高可靠性.................. 246
使用共識(shí)系統(tǒng)的動(dòng)力:分布式系統(tǒng)協(xié)調(diào)失敗 ........................ 248
案例1 :腦裂問(wèn)題 ....................... 249
案例2 :需要人工干預(yù)的災(zāi)備切換 ................................ 249
案例3 :有問(wèn)題的小組成員算法 . 249
分布式共識(shí)是如何工作的 ................... 250
Paxos 概要:協(xié)議示例 ................ 251
分布式共識(shí)的系統(tǒng)架構(gòu)模式 ............... 251
可靠的復(fù)制狀態(tài)機(jī) ...................... 252
可靠的復(fù)制數(shù)據(jù)存儲(chǔ)和配置存儲(chǔ) 252
使用領(lǐng)頭人選舉機(jī)制實(shí)現(xiàn)高可用的處理系統(tǒng) ................ 253
分布式協(xié)調(diào)和鎖服務(wù) ................... 253
可靠的分布式隊(duì)列和消息傳遞 .... 254
分布式共識(shí)系統(tǒng)的性能問(wèn)題 ............... 255
復(fù)合式Paxos :消息流過(guò)程詳解 . 257
應(yīng)對(duì)大量的讀操作 ...................... 258
法定租約 .. 259
分布式共識(shí)系統(tǒng)的性能與網(wǎng)絡(luò)延遲 ............................... 259
快速Paxos 協(xié)議:性能優(yōu)化 ........ 260
穩(wěn)定的領(lǐng)頭人機(jī)制 ...................... 261
批處理 ...... 262
磁盤(pán)訪問(wèn) .. 262
分布式共識(shí)系統(tǒng)的部署....................... 263
副本的數(shù)量.................................. 263
副本的位置.................................. 265
容量規(guī)劃和負(fù)載均衡 ................... 266
對(duì)分布式共識(shí)系統(tǒng)的監(jiān)控 ................... 270
小結(jié) ................. 272
第24 章 分布式周期性任務(wù)系統(tǒng)........... 273
Cron ................. 273
介紹 .......... 273
可靠性 ...... 274
Cron 任務(wù)和冪等性 ............................. 274
大規(guī)模Cron 系統(tǒng) ................................ 275
對(duì)基礎(chǔ)設(shè)施的擴(kuò)展 ...................... 275
對(duì)需求的擴(kuò)展 .............................. 276
Google Cron 系統(tǒng)的構(gòu)建過(guò)程 ............. 277
跟蹤C(jī)ron 任務(wù)的狀態(tài) ................. 277
Paxos 協(xié)議的使用 ....................... 277
領(lǐng)頭人角色和追隨者角色 ........... 278
保存狀態(tài) .. 281
運(yùn)維大型Cron 系統(tǒng) .................... 282
小結(jié) ................. 283
第25 章 數(shù)據(jù)處理流水線.................... 284
流水線設(shè)計(jì)模式的起源....................... 284
簡(jiǎn)單流水線設(shè)計(jì)模式與大數(shù)據(jù) ........... 284
周期性流水線模式的挑戰(zhàn) ................... 285
工作分發(fā)不均造成的問(wèn)題 ................... 285
分布式環(huán)境中周期性數(shù)據(jù)流水線的缺點(diǎn) ............................... 286
監(jiān)控周期性流水線的問(wèn)題 ........... 287
驚群效應(yīng) .. 287
摩爾負(fù)載模式 .............................. 288
Google Workflow 簡(jiǎn)介 ........................ 289
Workflow 是模型―視圖―控制器(MVC)模式 .......... 290
Workflow 中的執(zhí)行階段 ..................... 291
Workflow 正確性保障 ................. 291
保障業(yè)務(wù)的持續(xù)性 .............................. 292
小結(jié) ................. 294
第26 章 數(shù)據(jù)完整性:讀寫(xiě)一致........... 295
數(shù)據(jù)完整性的強(qiáng)需求 .......................... 296
提供超高的數(shù)據(jù)完整性的策略 .... 297
備份與存檔.................................. 298
云計(jì)算環(huán)境下的需求 ................... 299
保障數(shù)據(jù)完整性和可用性:Google SRE 的目標(biāo) ................... 300
數(shù)據(jù)完整性是手段,數(shù)據(jù)可用性是目標(biāo) ........................ 300
交付一個(gè)恢復(fù)系統(tǒng),而非備份系統(tǒng) ............................... 301
造成數(shù)據(jù)丟失的事故類(lèi)型 ........... 301
維護(hù)數(shù)據(jù)完整性的深度和廣度的困難之處 .................... 303
Google SRE 保障數(shù)據(jù)完整性的手段 .. 304
24 種數(shù)據(jù)完整性的事故組合 ...... 304
**層: 軟刪除 .......................... 305
第二層:備份和相關(guān)的恢復(fù)方法 306
額外一層:復(fù)制機(jī)制 ................... 308
1T vs. 1E :存儲(chǔ)更多數(shù)據(jù)沒(méi)那么簡(jiǎn)單............................ 309
第三層:早期預(yù)警 ...................... 310
確保數(shù)據(jù)恢復(fù)策略可以正常工作 313
案例分析 .......... 314
Gmail―2011 年2 月:從GTape 上恢復(fù)數(shù)據(jù)( 磁帶) 314
Google Music―2012 年3 月:一次意外刪除事故的檢測(cè)過(guò)程 .315
SRE 的基本理念在數(shù)據(jù)完整性上的應(yīng)用 ............................... 319
保持初學(xué)者的心態(tài) ...................... 319
信任但要驗(yàn)證 .............................. 320
不要一廂情愿 .............................. 320
縱深防御 .. 320
小結(jié) ................. 321
第27 章 可靠地進(jìn)行產(chǎn)品的大規(guī)模發(fā)布... 322
發(fā)布協(xié)調(diào)工程師 .................................. 323
發(fā)布協(xié)調(diào)工程師的角色 ............... 324
建立發(fā)布流程 .. 325
發(fā)布檢查列表 .............................. 326
推動(dòng)融合和簡(jiǎn)化 .......................... 326
發(fā)布未知的產(chǎn)品 .......................... 327
起草一個(gè)發(fā)布檢查列表....................... 327
架構(gòu)與依賴(lài).................................. 328
集成 .......... 328
容量規(guī)劃 .. 328
故障模式 .. 329
客戶(hù)端行為.................................. 329
流程與自動(dòng)化 .............................. 330
開(kāi)發(fā)流程 .. 330
外部依賴(lài) .. 331
發(fā)布計(jì)劃 .. 331
可靠發(fā)布所需要的方法論 ................... 332
灰度和階段性發(fā)布 ...................... 332
功能開(kāi)關(guān)框架 .............................. 333
應(yīng)對(duì)客戶(hù)端濫用行為 ................... 334
過(guò)載行為和壓力測(cè)試 ................... 335
LCE 的發(fā)展 ...... 335
LCE 檢查列表的變遷 .................. 336
LCE 沒(méi)有解決的問(wèn)題 .................. 337
小結(jié) ................. 338
第Ⅳ部分 管理
第28 章 迅速培養(yǎng)SRE 加入on-call... 341
新的SRE 已經(jīng)招聘到了,接下來(lái)怎么辦 .............................. 341
培訓(xùn)初期:重體系,而非混亂 ........... 344
系統(tǒng)性、累積型的學(xué)習(xí)方式 ....... 345
目標(biāo)性強(qiáng)的項(xiàng)目工作,而非瑣事 346
培養(yǎng)反向工程能力和隨機(jī)應(yīng)變能力 .... 347
反向工程:弄明白系統(tǒng)如何工作 347
統(tǒng)計(jì)學(xué)和比較性思維:在壓力下堅(jiān)持科學(xué)方法論 ......... 347
隨機(jī)應(yīng)變的能力:當(dāng)意料之外的事情發(fā)生時(shí)怎么辦 ..... 348
將知識(shí)串聯(lián)起來(lái):反向工程某個(gè)生產(chǎn)環(huán)境服務(wù) ............. 348
有抱負(fù)的on-call 工程師的5 個(gè)特點(diǎn)... 349
對(duì)事故的渴望:事后總結(jié)的閱讀和書(shū)寫(xiě) ........................ 349
故障處理分角色演習(xí) ................... 350
破壞真的東西,并且修復(fù)它們 .... 351
維護(hù)文檔是學(xué)徒任務(wù)的一部分 .... 352
盡早、盡快見(jiàn)習(xí)on-call .............. 353
on-call 之后:通過(guò)培訓(xùn)的儀式感,以及日后的持續(xù)教育 ..... 354
小結(jié) ................. 354
第29 章 處理中斷性任務(wù).................... 355
管理運(yùn)維負(fù)載 .. 356
如何決策對(duì)中斷性任務(wù)的處理策略 .... 356
不完美的機(jī)器 .. 357
流狀態(tài) ...... 357
將一件事情做好 .......................... 358
實(shí)際一點(diǎn)的建議 .......................... 359
減少中斷 .. 361
第30 章 通過(guò)嵌入SRE 的方式幫助團(tuán)隊(duì)從運(yùn)維過(guò)載中恢復(fù)............. 363
**階段:了解服務(wù),了解上下文 .... 364
確定*大的壓力來(lái)源 ................... 364
找到導(dǎo)火索.................................. 364
第二階段:分享背景知識(shí) ................... 365
書(shū)寫(xiě)一個(gè)好的事后總結(jié)作為示范 366
將緊急事件按類(lèi)型排序 ............... 366
第三階段:主導(dǎo)改變 .......................... 367
從基礎(chǔ)開(kāi)始.................................. 367
獲取團(tuán)隊(duì)成員的幫助 ................... 367
解釋你的邏輯推理過(guò)程 ............... 368
提出引導(dǎo)性問(wèn)題 .......................... 368
小結(jié) ................. 369
第 31 章 SRE 與其他團(tuán)隊(duì)的溝通與協(xié)作. 370
溝通:生產(chǎn)會(huì)議 .................................. 371
議程 .......... 372
出席人員 .. 373
SRE 的內(nèi)部協(xié)作 ................................. 374
團(tuán)隊(duì)構(gòu)成 .. 375
高效工作的技術(shù) .......................... 375
SRE 內(nèi)部的協(xié)作案例分析:Viceroy ... 376
Viceroy 的誕生 ............................ 376
所面臨的挑戰(zhàn) .............................. 378
建議 .......... 379
SRE 與其他部門(mén)之間的協(xié)作 ............... 380
案例分析:將DFP 遷移到F1 ............. 380
小結(jié) ................. 382
第32 章 SRE 參與模式的演進(jìn)歷程....... 383
SRE 參與模式:是什么、怎么樣以及為什么 ....................... 383
PRR 模型 ......... 384
SRE 參與模型 . 384
替代性支持.................................. 385
PRR :簡(jiǎn)單PRR 模型 ......................... 386
參與 .......... 386
分析 .......... 387
改進(jìn)和重構(gòu).................................. 387
培訓(xùn) .......... 388
“接手”服務(wù) ................................ 388
持續(xù)改進(jìn) .. 388
簡(jiǎn)單PRR 模型的演進(jìn):早期參與模型 .................................. 389
早期參與模型的適用對(duì)象 ........... 389
早期參與模型的優(yōu)勢(shì) ................... 390
不斷發(fā)展的服務(wù):框架和SRE 平臺(tái) ... 391
經(jīng)驗(yàn)教訓(xùn) .. 391
影響SRE 的外部因素 ................. 392
結(jié)構(gòu)化的解決方案:框架 ........... 392
新服務(wù)和管理優(yōu)勢(shì) ...................... 394
小結(jié) ................. 395
第Ⅴ部分 結(jié)束語(yǔ)
第33 章 其他行業(yè)的實(shí)踐經(jīng)驗(yàn).............. 398
有其他行業(yè)背景的資深SRE ............... 399
災(zāi)難預(yù)案與演習(xí) .................................. 400
從組織架構(gòu)層面堅(jiān)持不懈地對(duì)安全進(jìn)行關(guān)注 ................ 401
關(guān)注任何細(xì)節(jié) .............................. 401
冗余容量 .. 401
模擬以及進(jìn)行線上災(zāi)難演習(xí) ....... 402
培訓(xùn)與考核.................................. 402
對(duì)詳細(xì)的需求收集和系統(tǒng)設(shè)計(jì)的關(guān)注............................ 402
縱深防御 .. 403
事后總結(jié)的文化 .................................. 403
將重復(fù)性工作自動(dòng)化,消除運(yùn)維負(fù)載 404
結(jié)構(gòu)化和理性的決策 .......................... 406
小結(jié) ................. 407
第34 章 結(jié)語(yǔ).................................. 408
附錄A 系統(tǒng)可用性............................. 411
附錄B 生產(chǎn)環(huán)境運(yùn)維過(guò)程中的*佳實(shí)踐...412
附錄C 事故狀態(tài)文檔示范................... 417
附錄D 事后總結(jié)示范......................... 419
附錄E 發(fā)布協(xié)調(diào)檢查列表................... 423
附錄F 生產(chǎn)環(huán)境會(huì)議記錄示范.............. 425
參考文獻(xiàn)....... 427
索引............. 439
展開(kāi)全部

SRE(Google運(yùn)維解密) 作者簡(jiǎn)介

Besty Beyer 是Google 紐約負(fù)責(zé)SRE 的一名技術(shù)文檔作家。她之前曾為遍布全球的Google 數(shù)據(jù)中心與Mountain View 硬件運(yùn)維團(tuán)隊(duì)編寫(xiě)文檔。在搬到紐約之前,Betsy 是Stanford 技術(shù)性寫(xiě)作課程的講師。她曾經(jīng)學(xué)習(xí)國(guó)際關(guān)系與英文文學(xué),并在Stanford 和Tulane 獲得學(xué)歷。Chris Jones 是Google App Engine 的一名SRE。Google App Engine 是一個(gè)PaaS 服務(wù),每天處理超過(guò)280 億個(gè)請(qǐng)求。他的辦公室在舊金山,他之前的工作包括Google 廣告統(tǒng)計(jì)、數(shù)據(jù)倉(cāng)庫(kù),以及用戶(hù)支持系統(tǒng)的維護(hù)。在之前,Chris 曾經(jīng)在學(xué)校IT 行業(yè)任職,同時(shí)參與過(guò)競(jìng)選數(shù)據(jù)分析,以及一些BSD 內(nèi)核的修改。他有計(jì)算機(jī)工程、經(jīng)濟(jì)學(xué),以及技術(shù)政策學(xué)的學(xué)位。同時(shí)他也是一名有執(zhí)照的職業(yè)工程師。Jennifer Petoff 是Google SRE 團(tuán)隊(duì)的一名項(xiàng)目經(jīng)理,工作地點(diǎn)在都柏林,愛(ài)爾蘭。她曾經(jīng)負(fù)責(zé)管理大型全球項(xiàng)目,包括:科學(xué)研究、工程、人力資源,以及廣告等。Jennifer在加入Google 之前,曾在化工行業(yè)任職八年。她具有Stanford 大學(xué)的化學(xué)博士與學(xué)士學(xué)位,同時(shí)她還擁有Rochester 大學(xué)的心理學(xué)學(xué)位。Niall Murphy 是Google 愛(ài)爾蘭團(tuán)隊(duì)廣告SRE 的負(fù)責(zé)人。他擁有20 年互聯(lián)網(wǎng)行業(yè)經(jīng)驗(yàn),目前是INEX(愛(ài)爾蘭網(wǎng)絡(luò)互聯(lián)樞紐)的主席。他曾經(jīng)寫(xiě)作以及參與寫(xiě)作很多科技文章與書(shū)籍,包括O’Reilly 出版的IPv6 Network Administration,以及很多RFC。他目前在參與書(shū)寫(xiě)愛(ài)爾蘭互聯(lián)網(wǎng)發(fā)展史。他擁有計(jì)算機(jī)科學(xué)、數(shù)學(xué),以及詩(shī)歌學(xué)的學(xué)歷(他當(dāng)時(shí)一定是想錯(cuò)了!)。他目前與妻子和兩個(gè)兒子居住在都柏林。孫宇聰,前Google SRE(2007-2015),山景城總部,曾參與構(gòu)建運(yùn)維Youtube 全球CDN網(wǎng)絡(luò),2008年奧運(yùn)會(huì)直播項(xiàng)目,構(gòu)建維護(hù)海量視頻編碼傳輸系統(tǒng)。后參與Google內(nèi)部云平臺(tái)運(yùn)維工作,負(fù)責(zé)運(yùn)維全球百萬(wàn)級(jí)別服務(wù)器集群,以及Borg、Omega等大規(guī)模集群理系統(tǒng)。2015年加入Coding,任CTO一職;貒(guó)后,積極推動(dòng)國(guó)內(nèi)容器化運(yùn)維架構(gòu)升級(jí)。目前是開(kāi)放運(yùn)維聯(lián)盟之應(yīng)用運(yùn)維規(guī)范制定組,高可用運(yùn)維規(guī)范制定者。

暫無(wú)評(píng)論……
書(shū)友推薦
返回頂部
中圖網(wǎng)
在線客服