Brain Harry 是微軟 Team Services產(chǎn)品的掌舵人,他的頭銜是 Vice President for Cloud Developer Services。Team Services是個(gè)云上的服務(wù),但是也能夠在企業(yè)內(nèi)部部署,私有部署的話,名字叫做Team Foundation Services。這個(gè)產(chǎn)品支持了微軟內(nèi)部所有的研發(fā)團(tuán)隊(duì)的項(xiàng)目運(yùn)作,是微軟自己也在用的 ADLM 系統(tǒng)。和一般管理者不同的是,Harry喜歡寫博客,而且其博客不是在坐而論道,是干活滿滿的技術(shù)內(nèi)容。
5月底Harry大叔寫了一篇博客《The largest Git repo on the planet》,宣布經(jīng)過他們團(tuán)隊(duì)的努力,將Windows開發(fā)團(tuán)隊(duì)的代碼庫遷移到了 Git 上。這個(gè)單一的Git repo算是地球上最大的git倉庫了。里面包含 350 萬文件,總大小達(dá)到了 300GB 左右。Windows團(tuán)隊(duì)的4000多名工程師,現(xiàn)在有3500多人已經(jīng)在使用 git 了。在過去4個(gè)月中,該repo:
- 有超過25萬次的提交;
- 每天8421次(平均)push;
- 每個(gè)工作日(平均)有2500份pull request,有6600名代碼檢視人員;
- 4352個(gè)活躍的分支;
- 每天有1760個(gè)正式的build;
需要指出的是,Git 本身并不是為了管理如此大型的項(xiàng)目而開發(fā)的,因此微軟特地開發(fā)了“Git 虛擬文件系統(tǒng)”(簡稱 GVFS)來解決大規(guī)模git倉庫的性能問題。GVFS在微軟的build大會(huì)上出現(xiàn)過。并且微軟把 GVFS 開源到了github,同時(shí)也在讓git for windows客戶端來支持 GVFS,很快,Linux和Mac也會(huì)得到支持。
Harry大叔還就一些技術(shù)問題和觀眾進(jìn)行了深入的探討:
1:從source depot 遷移到git,那庫的歷史記錄可以一起遷移嗎?Harry回答是:不會(huì)。Windows團(tuán)隊(duì)將以前的sd庫歸檔,新的git庫里面不包含以前的歷史提交信息。如果想看以前的歷史,那就到sd平臺里面去查看(sd就是微軟內(nèi)部使用的source depot)。
2:如果使用了 GVFS,那么git還是一個(gè)真正的分布式配置管理工具嗎?因?yàn)榈讓游募?qū)動(dòng)做了虛擬化,git只會(huì)把所需要的文件下載到本地,那是不是說工作時(shí)必須保證網(wǎng)絡(luò)連接到代碼中心?Harry大叔暫時(shí)沒有回答這個(gè)問題。
3:有人問:一個(gè)巨大的庫有什么好處呢?開發(fā)者如果可以自由訪問所有的代碼,那么他們就不會(huì)尊重各子系統(tǒng)的邊界,他們會(huì)搞出很多不好的代碼間的依賴關(guān)系出來;他個(gè)人傾向于使用很多獨(dú)立的小倉庫(Nano repo),然后再通過一個(gè)工具,對外展示一個(gè)full version出來,比如repo。Harry回答:微軟的Windows and Devces Group團(tuán)隊(duì)負(fù)責(zé)的范圍很廣,包括windows、xbox、phone、HoloLens等,總共有接近1000個(gè)git repo,GVFS的目標(biāo)是OS repo,里面保存的是操作系統(tǒng)的核心代碼,他們經(jīng)過分析后發(fā)現(xiàn),要對這個(gè)庫進(jìn)行分解是非常困難的,同時(shí),公司的workflow對這種多庫操作也是不兼容的。從 Hacker News 等渠道也可以看到,類似google、facebook這樣的大型公司也有類似的結(jié)論,并且他們有相應(yīng)的類似工具方案,來解決和微軟類似的問題。
4:也有人來砸場子的。有人在博客下面說:拜托!你搞搞清楚!Google的庫才是世界上最大的git repo。不過,Harry大叔耐心的給予解答:我們說的是 git repo。google確實(shí)有最大的單體代碼庫,它卻不是 git repo。Android的庫雖然用的是git,但是體體量沒有達(dá)到windows的這庫的級別。
5:還有人問:如此巨大的一個(gè)單體git repo,會(huì)不會(huì)影響編譯構(gòu)建的時(shí)間?Harry大叔回答:對Windows進(jìn)行rebuild all的時(shí)間確實(shí)非常長。但是,windows團(tuán)隊(duì)做了很多事情,讓開發(fā)人員不用編譯全部代碼,這里利用并行編譯和緩存技術(shù)。不過,巨大的代碼庫對編譯是有影響的,他以后會(huì)寫一個(gè)博客專門來介紹相關(guān)內(nèi)容。
微軟越來越開放了,除了雄踞github企業(yè)貢獻(xiàn)排行榜首位之外,對自己在工具方面的前沿研究也不再藏著掖著,這里有一篇微軟的文章:《Git at scale: Technical Scale Challenges》,介紹了微軟在大規(guī)模的git repo上的一些考慮和方案,有興趣的同志們?nèi)ピ敿?xì)研究一下吧。