雖然一直使用git 作為版本管理工具,但是對git內部到底是如何儲存一直沒有去研究過,對git也只限于知其然的階段,這總歸不是一種好的狀態,所以這段時間斷斷續續看了一些關于git內部的知識,本文用以記錄和交流
存儲方案
git內部存儲是采用key-value的形式。
value代表git內部數據結構,不代表文件真正的內容,這一點尤其要注意。以blob為例,其結構如下圖所示:
value數據結構包含了:
標識符,blob是git針對單個文件的數據結構
size,文件內容的大小
\0,分隔符
content,單個文件真正的內容
key代表將value經過加密后得到的值,git采用的加密方式是SHA-1。
key包含以及幾個特點:
是長度為40位十六進制的字符串
相同的value總是產生相同的key
存儲位置
當我們使用git init
時,通常會用這么一段文字:Initialized empty Git repository in /**/**/.git/
,由此可見,git在所有的數據都存儲在.git的文件夾里,而.git是隱藏文件,所有通常是不顯示出來的,而文件存儲是在.git下的objects目錄中, objects的文件結構是:
.git
├── objects
│ ├── 04
│ │ └── 4d4024553293e6e8edee445c477ffc9129bc95
│ ├── 0d
│ │ └── 21313c5cd81c608f3413deb2004e1276046add
│ ├── info
│ └── pack
其中類似于04
,0d
這種文件夾就是以key的前兩位作為文件夾文字,文件夾名加上文件名剛好是40位長度的key
info
,pack
文件夾是git用于優化存儲所生成的
其他數據結構
git在使用blob存儲后,雖然我們得到了文件內容的存儲,但是這還是不夠的,我們還需要把文件名,文件夾結構等等信息存儲起來,所以我們還要用其他數據結構,git使用tree來存儲這些數據
tree
tree的數據結構如圖所示:
tree主要包含了:
標識符tree
size,大小
\0,分隔符
對其他的tree或者blob的指針,包括了(標識符,key,文件或文件夾名)
通過blob和tree,git就能夠將項目中真正的文件結構,文件名,以及文件內容存儲起來,blob與tree的關系如圖所示:
需要注意的是:相同的文件內容只會出存儲一次。舉例說明:如果我們項目中有一個叫hello.txt, 如果對應的blob是8ab68,當我們復制一份hello.txt后,我們存儲的指針對應的blob還是8ab68,其實這些很好理解,我們之前說過SHA-1的特點就是相同的value總是產生相同的key,示意圖如下:
commit
雖然tree和blob已經達到了存儲的功能,但是還沒有和版本管理掛鉤,我們需要知道每一個提交更改了哪些文件夾,哪些文件,以及更改歷史。所以我們還要一個版本管理的數據結構,git使用commit來存儲。
commit的結構如圖:
commit主要包含了:
標識符commit
size,大小
tree,指向對應的tree的指針
parent,指向上一個commit得指針
auther,提交的人
message,提交的message
所以.git/objects里面的那一堆的文件最后可以以下圖的方式可視化:
查看命令
當我們直接打開.git/objects里面某個文件時,我們無法直接看出有效信息,因為每一個文件內容都是被壓縮過的,但是我們可以通過以下命令查看:
git cat-file -t [file name] #t -> 會打印出標識符
git cat-file -p [file name] #p -> 會打印出內容
例如:某一個項目中只有一個first.txt的文件,first.txt的內容是"1",當我們做了一次提交后:
# objects包含內容
$ tree .git/objects
.git/objects
├── 56
│ └── a6051ca2b02b04ef92d5150c9ef600403cb1de
├── cf
│ └── 58af35d755cf6d8416d2ec341cfc85f05321ed
├── ed
│ └── 20a2c52efb48d3281e255e4a54b5d428689c8b
├── info
└── pack
5 directories, 3 files
# first.txt
$ git cat-file -t 56a60
blob
$ git cat-file -p 56a60
1%
# 文件結構tree
$ git cat-file -t cf58a
tree
$ git cat-file -p cf58a
100644 blob 56a6051ca2b02b04ef92d5150c9ef600403cb1de first.txt
# 提交commit
$ git cat-file -t ed20a
commit
$ git cat-file -p ed20a
tree cf58af35d755cf6d8416d2ec341cfc85f05321ed
author wjXu <wjxu.com> 1548078881 +0800
committer wjXu <wjxu.com> 1548078881 +0800
master commit
需要注意的是:實際的commit包含了了auther以及committer兩個內容,關于兩者的區別,簡單做一個解釋:auther是指最早提交的人,由于git擁有修改歷史的功能,所有后續可能還要其他的人對這個歷史作修改,所以committer是指上一個修改該提交的人
官方解釋:You may be wondering what the difference is between author and committer. The author is the person who originally wrote the patch, whereas the committer is the person who last applied the patch. So, if you send in a patch to a project and one of the core members applies the patch, both of you get credit — you as the author and the core member as the committer.
總結
到此,我們大概梳理了一下git內部的存儲,簡單總結一下,git內部包含了三種數據結構:blob,tree,commit;其中blob用于儲存文件內容,tree用于存儲文件名字以及文件結構,commit用于存儲每一次提交的改變;三者相互配合,就能夠實現版本記錄的基本功能,當然我們也要知道這只是最基礎的部分,git在這之上還做了很多其他的優化。
希望這篇文件能夠讓大家了解git的一些內部的原理,在日后的使用中,能更加的心中有數,如果對本文有什么意見和建議,歡迎討論和指正!??!