華為工程師SRECon Asia見聞:聚焦可靠性、資源優化及性能提升

內容來源:2017年6月17日,華為軟件架構師馬博文在“西安活動 | 6月17日DevOps MeetUp”進行《SRECon Asia 2017見聞》演講分享。IT 大咖說(ID:itdakashuo)作為獨家視頻合作方,經主辦方和講者審閱授權發布。

閱讀字數:1552?| 4分鐘閱讀

獲取嘉賓演講視頻及PPT,請點擊:http://t.cn/Ezw4rI2

摘要

軟件系統40%-90%的開銷是在維護上,對于大規模,關注軟件可用性、可靠性和性能的公司,使用軟件工程的方式去解決運維領域的問題就變成了一個選擇。由此,Google發起了SRE(軟件可靠性工程師)這樣關注可靠性的組織,大名鼎鼎的Borg, Borgmon都出自SRE之手。除了Google之外,關注可靠性的其他大規?;ヂ摼W公司,如Facebook、Ebay、Dropbox、Linkedin、百度、阿里等也采取類似的實踐。SRECon則是這些公司分享SRE在技術、文化等方面實踐的會議。最近我有幸參加在新加坡SRECon亞洲的會議,借此機會和大家分享下一些有趣的話題、idea以及我觀察到的一些SRE領域的趨勢。

什么是SRE

SRE就是網站可靠性工程師。SRE對技能的要求非常高,Goggle SRE中50%-60%是標準軟件工程師,其余的要滿足80%-90%軟件工程師要求,并且了解unix細節以及網絡。

SRE會用軟件工程的思維去解決運維領域問題,負責可用性、性能、效率、監控、事務處理等。

SRE方法論

SRE主要關注的是研發工作,在保障服務SLA/SLO前提下最大化迭代速度。并涉及到監控系統、應急事件處理、變更管理、需求預測和容量規劃、資源部署、以及效率和性能。

SRECon Asia

SRECon的主辦方是USENIX,亞洲區會議主要贊助商是Baidu、Facebook和Linkedin。到會人數在250人左右。貢獻話題的講師都來自比較大的互聯網公司,有Google、Facebook、Linkedin、PayPal、CloudFlare、Dropbox、Yahoo、Atlassian以及REA Group等,國內的公司有Baidu、Alibaba、Didi、QiNiu、Tingyun和Tsinghua。

監控與告警

如圖所示,軟件最基礎的要求是監控,一切都是在監控的基礎上運行,只有監控到發生了什么樣的事故,才能做出相應的應急處理。事后總結問題,分析問題根源在哪里。對應的做出改進后進行測試,確認問題后修改代碼然后進行發布。

Open-Falcon: Motivation

Zabbix:當管理的服務器超過2000臺的時候,它的水平擴展會比較困難。

OpenTSDB:它的優點是寫性能,水平擴展好,但是Query慢。

InfluxDB:國外一些小公司會使用InfluxDB。它的Query性能非常好,aggregator聚合強大,缺點是水平擴展難。

Open-Falcon: Performance

容易水平擴展,每分鐘能處理百萬級transaction (query/ judge/store/search),輕松支持超過100,000主機。RRA機制,可以查詢1年歷史數據,100+ metric秒級響應時間,性能非常好??梢源鎯?0年以上的metric歷史數據。

問題

運維OpenStack,修復問題所需要的知識復雜,操作過多。這些知識很難Transfer。

解決思路

使用自然語言查詢系統狀態,好于CLI和Regex。

使用最基本的規則自動發現系統知識,構建一個知識圖譜SOSG,將特定系統的查詢轉化為圖遍歷,異常檢測發現隱藏的問題。

來自話題《Talking to an OpenStack Cluster in Plain English》by Xu Wei From Tsinghua

服務生命周期

雙分布一致算法,Paxos算法;可靠的發射規模,發射檢查表;在雅虎Hadoop基礎架構服務器上無縫地管理變更,由Chef管理的45000個節點。

Reliable Launches at Scale

在上線前會檢查架構、容量、可靠性、監控、自動化程度、增長趨勢以及第三方(google內部)服務是否準備好,確認這些都沒有問題后才會正式上線。

Managing Server Secrets at Scale with a Vaultless Password Manager?

Key/CredenHals隨著服務器增多而增多。

在配置管理工具中保存Secrets,啟動配置管理工具需要key/pair etc,因為每個服務器密碼不能相同導致無法scale key,Key RotaHon。

還有一種方式是保存在服務器上,服務器啟動時生成。root password,磁盤加密比較困難,無狀態時磁盤的服務器無法存儲。

事故管理

事故管理的一些挑戰

如何達成更短的MTTR;

很多事故的處理比較簡單,如重啟等,如何自動處理這些事故;

falsealarms如何減少;

報警如何給出正確信息,快速定位問題。

服務擴展

Small,Cheap, and EffecHveTesHng forProducHon Engineers.

Merou:A Decentralized, AuditedAuthorizaHon Service

Shameon facebook and dropbox.

容量規劃/性能調優

Capacity Planning and Flow Control

容量估算: 單機壓測;

模擬: ab/jmeter/gatling;

復制: 復制生產環境流量;

重定向;

負載均衡: weight。

Why Flow Control

隊列堆積:服務器性能降低,響應時間增加,影響應用以及用戶體驗。

雪崩效應;

需要限制過載的流量。

And a Formula!

計算原則:

EntranceSize= volume * RT(response Hme)

Requests= constants * LOAD * RT

流量控制原則:系統超載則限制volume,負載正常則去掉限制。

使用動態閾值控制。

總結

SRECon參會人數不少,交流效果也比較好。

可以了解到不同的公司,比如Cloudfare,亞馬遜的A9。

雖然很多話題看著很小,但是大部分的話題都有可學習的地方。

可以感受到的一個運維方面的趨勢是數據流水線+大數據+機器學習+AI+Bot。

我今天的分享就到這里,謝謝大家!

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,606評論 6 533
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,582評論 3 418
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,540評論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,028評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,801評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,223評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,294評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,442評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,976評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,800評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,996評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,543評論 5 360
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,233評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,662評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,926評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,702評論 3 392
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,991評論 2 374

推薦閱讀更多精彩內容

  • 專業考題類型管理運行工作負責人一般作業考題內容選項A選項B選項C選項D選項E選項F正確答案 變電單選GYSZ本規程...
    小白兔去釣魚閱讀 9,041評論 0 13
  • SRE Google運維解密 閱讀與摘錄 第一部分概覽 序言 SRE Site Reliability Engin...
    TXN閱讀 2,177評論 0 5
  • 桐同學不到三歲,但性格中已暴露出她娘的一些特質,比如暴躁、不善言辭、不大會顯露情感??傊H有一半是海水一半是火焰...
    蘇夏閱讀 31,888評論 18 73
  • 弟,很久沒有和你通話了,你也是知道的,哥從小比較內向,不善于言辭,但是心里一直記掛著咱們一家人,所以以用書寫的方式...
    五寶粥閱讀 355評論 0 1
  • “人生的本質是人性和時間,天地萬物之逆旅,光陰百怠之過客,浮生若夢,為歡幾何?剩下的只是蒼茫流年里有去無回的人?!?/div>
    寒雪盛梅閱讀 250評論 0 0