git内部原理读书笔记

2017-08-21  本文已影响0人  夜里遛狗

首先要弄明白一点,从根本上来讲 Git 是一个内容寻址(content-addressable)文件系统,并在此之上提供了一个版本控制系统的用户界面。

1.低层命令(plumbing)和高层命令(porcelain)

高层命令:对用户友好的一些命令包括我们常见的:push pull checkout branch等30多个 
参见:https://git-scm.com/book/zh/v2/Appendix-C%3A-Git-%E5%91%BD%E4%BB%A4-%E8%AE%BE%E7%BD%AE%E4%B8%8E%E9%85%8D%E7%BD%AE 附录3

低层命令: cat-file ls-remote等命令

2.分析git目录

首先初始化一个git文件 然后打开.git文件

hooks          
logs           
config         
objects        
ORIG_HEAD
description    
info           
refs           
HEAD           
FETCH_HEAD
packed-refs    
gc.log         
COMMIT_EDITMSG 
index

可以看到有这么多文件或文件夹
其中
description 文件仅供 GitWeb 程序使用,我们无需关心
config 文件包含项目特有的配置选项。
info 目录包含一个全局性排除(global exclude)文件,用以放置那些不希望被记录在 .gitignore 文件中的忽略模式(ignored patterns)
hooks 目录包含客户端或服务端的钩子脚本(hook scripts)

HEAD 文件  
(尚待创建的)index 文件  
objects 目录  
refs 目录

这4个目录是最重要的是git的核心部分

3.git对象

Git 是一个内容寻址文件系统.这意味着,Git 的核心部分是一个简单的键值对数据库(key-value data store)。 你可以向该数据库插入任意类型的内容,它会返回一个键值,通过该键值可以在任意时刻再次检索(retrieve)该内容。

我们打开一个使用过git的.git/objects目录
可以看到很多文件夹
每个文件夹中都有一个文件
比较特殊的有2个文件:info, pack 这两个文件后续会解释

首先我们查看git是如何存储文件的

使用git hash-object -w --stdin
w表示存储 不添加则仅生成
stdin如果不添加则需要在命令后接入要处理的内容
命令输出一个长度为 40 个字符的校验和。 
这是一个 SHA-1 哈希值——一个将待存储的数据外加一个头部信息(header)一起做 SHA-1 校验运算而得的校验和。
校验和的前两个字符用于命名子目录,余下的 38 个字符则用作文件名。

现在我们知道可以用hash-object存储

然后通过cat-file命令我们可以解析git 取回数据

cat-file是一个非常重要的命令

cat-file链接

-p 可以将git内容解析 为我们展示友好的输出
-t 可以让 Git 告诉我们其内部存储的任何对象类型,只要给定该对象的 SHA-1 值

git 树对象

它能解决文件名保存的问题,也允许我们将多个文件组织到一起。 Git 以一种类似于 UNIX 文件系统的方式存储内容,但作了些许简化。 所有内容均以树对象和数据对象的形式存储,其中树对象对应了 UNIX 中的目录项,数据对象则大致上对应了 inodes 或文件内容。 一个树对象包含了一条或多条树对象记录(tree entry),每条记录含有一个指向数据对象或者子树对象的 SHA-1 指针,以及相应的模式、类型、文件名信息。

例如我们分析下.git目录

git cat-file -p master^{tree} // 将当前的master以树对象输出
100644 blob eccc066d0fee656b1cd5b0a0918acc12a04e54ed    README.md
040000 tree d8286c0bdd97ecf334347e556082e410ee6d8a16    data

树对象指向了一个readme和另一个树对象

graph TD
master-->|tree|data
master-->|blob|README

我们继续看

git cat-file -p d8286c0bdd97ecf334347e556082e410ee6d8a16
100644 blob 682b2728d73775036b0624f8d2d2422e14cd71de    secret

这样就拿到了data里面存储的git对象

graph TD
master-->|tree|data
master-->|blob|README
data-->|blob|secret
*这里我们看到了一些100644等数字,这个是文件类型*
下面是git数据对象的类型
100644:表明这是一个普通文件
100755:表示一个可执行文件
120000:表示一个符号链接
以及我们见到过的
040000: tree类型

下面我们生成一个树对象
通常git根据某一时刻的暂存区生成树对象
首先生成暂存区并把文件加入

git update-index --add --cacheinfo 100644 <SHA1> text1
通过这个命令我们吧一个名为text1的普通文件加入了暂存区
--add是因为我们之前没有创建过暂存区
--cacheinfo 命令因为将要添加的文件位于 Git 数据库中,而不是位于当前目录下

现在可以通过write-tree命令将暂存区文件生成一个树对象

提交对象

如果有多个树对象,分别代表了我们想要跟踪的不同项目快照。若想重用这些快照,你必须记住所有三个 SHA-1 哈希值。 并且,你也完全不知道是谁保存了这些快照,在什么时刻保存的,以及为什么保存这些快照。 而以上这些,正是提交对象(commit object)能为你保存的基本信息。

通过调用 commit-tree 命令创建一个提交对象,为此需要指定一个树对象的 SHA-1 值,以及该提交的父提交对象

$ echo 'first commit' | git commit-tree d8329f
fdf4fc3344e67ab068f836878b6c4951e3b15f3d

查看文件
$ git cat-file -p fdf4fc3
tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579
author Scott Chacon <schacon@gmail.com> 1243040974 -0700
committer Scott Chacon <schacon@gmail.com> 1243040974 -0700

first commit

提交对象的格式很简单:它先指定一个顶层树对象,代表当前项目快照;然后是作者/提交者信息(依据你的 user.name 和 user.email 配置来设定,外加一个时间戳);留空一行,最后是提交注释。

我们生成了第一个提交 fdf4fc3344e67ab068f836878b6c4951e3b15f3d
接着使用commit-tree 对象提交新的对象并将第一个提交作为父对象

echo 'second commit' | git commit-tree 0155eb -p fdf4fc3

例如0155eb 是新的暂存区引用 fdf4fc3是父提交 

这个时候我们使用git log的话就可以看到真正的提交记录了
这个就是每次我们使用git add 和 git commit时git为我们做的事情

Git 所做的实质工作——将被改写的文件保存为数据对象,更新暂存区,记录树对象,最后创建一个指明了顶层树对象和父提交的提交对象。 这三种主要的 Git 对象——数据对象、树对象、提交对象——最初均以单独文件的形式保存在 .git/objects 目录下

git 如何存储对象

前面提到git生成SHA-1后会将前2位作为文件夹名后38位为文件名存储。
git通过zlib压缩文件并存储

4.git 引用

我们可以借助git log等命令来浏览完整的提交历史,但为了能遍历那段历史从而找到所有相关对象,你仍须记住 某个SHA-1 是最后一个提交。 我们需要一个文件来保存 SHA-1 值,并给文件起一个简单的名字,然后用这个名字指针来替代原始的 SHA-1 值。

git中这样的文件称为引用(references)存放在refs目录下

我们可以通过update-ref来创建引用

git update-ref refs/heads/master 1a410efbd13591db07496601ebc7a059dd55cfe9
这个命令就是创建一个master的引用对象 指向1a这个提交对象

同时我们也可以创建别的引用对象

git update-ref refs/heads/xunlu 1a410efbd13591db07496601ebc7a059dd55cfe9

这个命令就相当于在1a这个提交对象下git branch xunlu

那么git 如何知道当前的分支呢
答案是HEAD文件
HEAD文件是一个符号引用指向目前所在的分支, 所谓符号引用,意味着它并不像普通引用那样包含一个 SHA-1 值——它是一个指向其他引用的指针

cat .git/HEAD
ref: refs/heads/master

当我们执行git commit时,git会创建一个提交对象,并用 HEAD 文件中那个引用所指向的 SHA-1 值设置其父提交字段。

你可以通过symbolic-ref命令来查看或者修改HEAD文件

 git symbolic-ref HEAD refs/heads/test
 将HEAD指向test分支

还有标签引用和远程引用
标签引用就是创建了一个永远指向一个固定的提交对象的引用,相当于起了别名
远程引用:如果你添加了一个远程版本库并对其执行过推送操作,Git 会记录下最近一次推送操作时每一个分支所对应的值,并保存在 refs/remotes 目录下

5.包文件

git 使用zlib压缩文件
当你对同一个很大的文件修改哪怕一行以后你会发现 git 会使用全新的文件存储这个修改了的文件 放在了object中,这就造成了极大的浪费 这两个文件几乎相同。

如果存放一个文件放他们相同的部分岂不是更好。

Git 最初向磁盘中存储对象时所使用的格式被称为“松散(loose)”对象格式。 但是,Git 会时不时地将多个这些对象打包成一个称为“包文件(packfile)”的二进制文件,以节省空间和提高效率。 当版本库中有太多的松散对象,或者你手动执行 git gc 命令,或者你向远程服务器执行推送时,Git 都会这样做。

通过 git gc命令 git生成了pack/ 文件和索引文件

可以使用 git verify-pac 命令查看已打包的内容

上一篇 下一篇

猜你喜欢

热点阅读