Git由浅入深之基本原理
万丈高楼平地起,万事只有打好基础,才能有所成就,学习亦是一样。本篇开始介绍Git基础工作原理,学完本篇,我们应该知道什么是Git,Git是如何工作的,以及Git与SVN等分布式版本控制系统的主要区别。
什么是Git
一言以蔽之,Git是一个分布式版本控制系统(DVCS),大家都知道,那它与其他的集中式版本控制系统,如SVN等有什么差别呢?这就要从Git的特性开始介绍,介绍完,就清楚了Git是怎么工作的,及他与SVN等的差别。
快照(Snapshots)与记录变更(Differences)
Git与SVN最大的差别在于它们如何处理数据:
- SVN等大多数版本控制系统存储的数据是一系列记录项目文件变更的文件。
- Git存储的数据则更像是一个微型文件系统的一系列快照,即快照流。
每次提交或保存当前项目状态,Git都会生成一个当前所有文件状态的快照,并存储一个对该快照的引用;而且文件没有发生变化时,Git不会重复保存快照,而只是链接到之前的标识文件。
也许,你可以把Git想象成一个小型文件系统,而不仅仅是一个版本控制系统,这有助于你比较Git与其他版本控制系统。
操作本地化
在传统的VCS中,大多数操作都依赖于网络,特别在网络延迟高时,那种痛苦感,相信你是不想有第二次体验的;而Git的大部分操作都是基于本地文件和资源的,而不需要通过网络从其他计算机获取信息,Git将整个项目历史保存在本地磁盘,使得大多数操作似乎没有延迟感。
比如,需要查看项目历史记录时,Git不再需要从服务器获取,可以直接从本地磁盘读取,操作很快;又或者我们需要查看某一文件在两个不同时间点的区别,Git可以查询该文件不同时间点的状态,并计算出变更,而不需要从服务器获取不同版本文件或者请求服务器计算它们点变更。即使与服务器的连接断开甚至网络断线,也不会受太大限制,我们可以在本地对文件进行编辑,保存,然后等连接正常时再上传,而在其他的版本控制系统,这些几乎不可能。
健全性
Git在存储任何数据前都会先计算并存储其校验和,随后通过该校验和,而不是文件名访问存储数据,这意味着Git可以探测到任何文件或目录的变更,即使数据发生丢失,Git也能知道。
Git生成校验和的机制叫做SHA-1哈希,为什么通过该校验和可以访问到存储数据呢?因为它是基于文件内容或目录结构计算得出一个由40个十六进制字符组成的字符串,比如:24b9da6552252987aa493b52f8696cd6d3b00373。
操作数据
对数据进行版本管理,无非就是对数据进行增删改并记录,在传统的VCS中,我们没有提交至服务器的任何新增文件或变更,都很容易就可以被错误删除或再次修改,这时我们是无法找回之前需要提交的内容的;然而在Git中,只要我们在本地提交了项目当前的快照,几乎不会出现数据丢失的情况,而且无论是否提交数据到服务器我们都可以随时找回之前保存过的内容或变更,即使在中途某次操作误删除或误修改,因为Git中的几乎所有操作,都是在向Git数据库添加数据或变更记录。
三种状态
介绍到现在,终于进入本篇最重点的内容:Git的三种状态。
在Git,文件可能有三种状态:已提交(committed),已修改(modified),暂存(staged):
- 已提交(commited),说明数据已经存储在本地数据库;
- 已修改(modified),说明数据被修改,但是尚未存储到本地数据库;
- 暂存(staged),说明已标记将一个被修改的文件(当前版本)添加到待提交的快照中。
这三种状态分别对应Git项目的三大区块:Git目录,工作目录,暂存区。
- Git 目录(repository),即Git存储项目元数据和对象数据库的地方,也就是我们克隆(clone)某项目仓库时拷贝下的内容所在地;
- 工作目录(working directory),即从项目某版本中检出的当前所处分支,也就是从Git目录数据库中拉取的文件在本地磁盘保存所在地;
- 暂存区(staging area),即一个文件,通常包含在Git目录中,存储下一次需提交的内容,有时,它指向我们所说的“index”索引。
基本工作流程
我们使用Git时的一次基本工作流程如下:
- 从Git目录,检出分支到工作目录
- 在工作目录修改文件
- 暂存文件,将其添加到待提交快照
- 提交,将快照持久化提交到Git目录
学完本篇,我们需要懂得什么是Git,Git与传统集中式版本控制系统的主要区别,及Git的基本工作流程,下一篇将详细介绍Git的使用与指令。