在不斷迭代的過(guò)程中,Cloud Insight 也很重視客戶對(duì)產(chǎn)品的使用體驗(yàn),這次我們拜訪了晨芯時(shí)代,了解到他們?cè)谑褂?Cloud Insight 過(guò)程中對(duì)產(chǎn)品的一些想法。
客戶背景
晨芯時(shí)代是一家開(kāi)發(fā)電視盒子等產(chǎn)品的公司,由外包公司為其產(chǎn)品進(jìn)行服務(wù)器端開(kāi)發(fā),他們自身不在服務(wù)器開(kāi)發(fā)和系統(tǒng)運(yùn)維方面進(jìn)行特別大的投入,因此選擇使用我們的產(chǎn)品 Cloud Insight——即 Ci,進(jìn)行服務(wù)器端的監(jiān)控。
晨芯時(shí)代一共搭建了9臺(tái)服務(wù)器(CentOS),部署有 MySQL、Memcached、Nginx、Redis,使用 CI 監(jiān)控系統(tǒng)和除 Redis 外的其他三項(xiàng)服務(wù)。他們主要關(guān)注系統(tǒng)網(wǎng)絡(luò)與進(jìn)程的性能指標(biāo)。在使用 CI 之前一直使用 OneAPM Servers 監(jiān)控系統(tǒng)性能指標(biāo)。
Cloud Insight 采用 StatsD 的采集技術(shù),對(duì)接 MySQL、Redis、MongoDB,以及 CentOS、RedHat 操作系統(tǒng),利用 Hbase 存儲(chǔ)和 OpenTSDB 的數(shù)據(jù)聚合、切片等功能,最終流向 Cloud Insight 進(jìn)行展現(xiàn)。從而幫助優(yōu)絡(luò)時(shí)代實(shí)現(xiàn)低成本、高效的自動(dòng)化運(yùn)維。
面臨問(wèn)題
由于客戶是初創(chuàng)團(tuán)隊(duì),在人員和資源方面都比較不足,且暫時(shí)并不打算在服務(wù)器端開(kāi)發(fā)和運(yùn)維方面投入太大的人力成本,因此需要一款優(yōu)秀的性能監(jiān)控工具幫助其提高在運(yùn)維方面的效率同時(shí)降低運(yùn)維成本。
客戶之前使用 OneAPM Server 監(jiān)控主機(jī)服務(wù)器,幫助其在遇到網(wǎng)路性能瓶頸與內(nèi)存占用率過(guò)高時(shí)更快的定位系統(tǒng)問(wèn)題,提高解決問(wèn)題的效率。現(xiàn)在使用 OneAPM Cloud Insight 來(lái)更好的實(shí)現(xiàn)這一點(diǎn)。
解決方案
首先 Cloud Insight 通過(guò)拓?fù)鋱D讓用戶能夠直觀的看到集群結(jié)構(gòu),快速定位性能不佳的機(jī)器。上帝視角管理主機(jī),邏輯清晰而且方便。
通過(guò)平臺(tái)列表可以大致了解各個(gè) host 的基本性能情況,包括實(shí)時(shí)狀態(tài),CPU 占用率、I/O Wait、搭載的平臺(tái)服務(wù)等信息。
由于客戶主要關(guān)注 System Networking 這一塊的性能,那么著重來(lái)看一下這一塊,總覽頁(yè)可以看到某個(gè)主機(jī)的實(shí)時(shí)運(yùn)行情況,包括 disk io, network、CPU 等數(shù)據(jù)。而通過(guò)儀表盤我們可以看到多臺(tái)服務(wù)器的統(tǒng)計(jì)數(shù)據(jù),Cloud Insight 通過(guò)對(duì)數(shù)據(jù)進(jìn)行聚合與分組,讓數(shù)據(jù)對(duì)客戶來(lái)說(shuō)更有意義。關(guān)于數(shù)據(jù)聚合與分組功能,可以參考文章 數(shù)據(jù)聚合 & 分組:新一代系統(tǒng)監(jiān)控的核心功能 。
通過(guò) Cloud Insight 監(jiān)控 System Networking 截圖如下:
而通過(guò) Memcached、Nginx、Mysql 三個(gè)平臺(tái)各自的性能圖表,我們可以鎖定對(duì)系統(tǒng)性能產(chǎn)生影響的模塊,從而更好地明確優(yōu)化性能的方向。
客戶反饋
不足之處
- 儀表盤展現(xiàn)形式不夠豐富,全部指標(biāo)都是用折線圖來(lái)展示,不如之前 OneAPM Server 的展現(xiàn)形式直接易懂。
- 指標(biāo)單位使用不符合用戶習(xí)慣,例如客戶提到在網(wǎng)絡(luò)傳輸上他們一般習(xí)慣使用 bits 而我們提供的是 bytes,導(dǎo)致使用時(shí)混亂。
- 安裝平臺(tái)服務(wù)時(shí)不夠簡(jiǎn)化,希望安裝能夠?qū)崿F(xiàn)命令行化。
- 指標(biāo)參數(shù)太復(fù)雜導(dǎo)致其不會(huì)使用自定義儀表盤。
- 整體使用感受不如之前 OneAPM Server 簡(jiǎn)單易用,很多性能指標(biāo)需要進(jìn)行再次轉(zhuǎn)化才能得到客戶需要的結(jié)果,客戶認(rèn)為不夠傻瓜化并沒(méi)有減少運(yùn)維人員的工作量。
而針對(duì)用戶提出的這些,我們的想法是
- 我們會(huì)針對(duì)「System 總覽」這個(gè)儀表盤,進(jìn)行優(yōu)化。添加排行榜、位移圖、狀態(tài)圖、曲線圖等多種展現(xiàn)形式,來(lái)提高可讀性。而這些可視化的形式,未來(lái)會(huì)增加自定義的功能,滿足不同用戶的使用習(xí)慣。
- 我們會(huì)在六月份前后提供單位的自定義功能。除此之外,也將在自定義儀表盤中,提供指標(biāo)的代數(shù)運(yùn)算。從而可以通過(guò)加減乘除,來(lái)自行消除這樣的問(wèn)題。
- Cloud Insight 其實(shí)已經(jīng)是一行命令就可以安裝了,大部分用戶都稱贊我們的安裝非常簡(jiǎn)單。
- 指標(biāo)方面我們會(huì)提供自定義解釋字段的功能,增加指標(biāo)參數(shù)的解析引導(dǎo)幫助,將指標(biāo)的單位修改為用戶習(xí)慣使用的單位,改進(jìn)用戶體驗(yàn),提升產(chǎn)品的易用性。也希望有需求的用戶多閱讀官方文件和我們的文檔進(jìn)行學(xué)習(xí)。
- Cloud Insight 之所以沒(méi)有自動(dòng)發(fā)現(xiàn)平臺(tái)服務(wù),是為了讓用戶通過(guò)配置,更加了解自己的技術(shù)棧從而實(shí)現(xiàn)更好的管理。
客戶對(duì) Cloud Insight 價(jià)值的認(rèn)可
- Cloud Insight 能夠更傻瓜化進(jìn)行性能監(jiān)控,監(jiān)控?cái)?shù)據(jù)全面,界面優(yōu)美,極大地方便了對(duì)運(yùn)維有需求卻缺乏人力和資金的創(chuàng)業(yè)公司,是剛需產(chǎn)品。
- 能夠監(jiān)測(cè)平臺(tái)服務(wù)的性能指標(biāo)是產(chǎn)品的亮點(diǎn)。
Cloud Insight 集監(jiān)控、管理、計(jì)算、協(xié)作、可視化于一身,幫助所有 IT 公司,減少在系統(tǒng)監(jiān)控上的人力和時(shí)間成本投入,讓運(yùn)維工作更加高效、簡(jiǎn)單。
本文轉(zhuǎn)自 OneAPM 官方博客