文档的完全备份和增量备份
2019-07-11 本文已影响0人
隔壁python
要求:
- 周一完全备份,其他时间增量备份
- 源文件:/tmp/demo/security
- 目标文件:/tmp/demo/backup
- md5文件:/tmp/demp/backup/md5.data
import hashlib #导入哈希模块,用于计算哈希值
import tarfile #导入备份模块
from time import strftime #导入时间模块
import os
import pickle #pickle用于将任意类型数据以二进制写入文件
def check_md5(fname): #定义计算md5值的函数
m = hashlib.md5() #因一个文件对应一个md5值,所以使用字典
with open(fname, 'rb') as fobj: #打开要计算的文件,作为一个对象
while True:
data = fobj.read(4096) #一次读取4k字节
if not data:
break
m.update(data) #如果读取到数据,就更新md5值
return m.hexdigest() #计算完之后,返回md5值字典
def full_backup(src, dst, md5file): #定义完全备份函数
fname = '%s_full_%s.tar.gz' % (os.path.basename(src), strftime('%Y%m%d')) #定义文件名:xxx_full_20190710.tar.gz
#将文件名和路径组合:/tmp/demp/backup/xxx_full_20190710.tar.gz
fname = os.path.join(dst, fname)
# 打压缩包
tar = tarfile.open(fname, 'w:gz') #以gz格式压缩
tar.add(src)
tar.close() #压缩完成之后要关闭文件
# 计算每个文件的md5值
md5dict = {} #以字典类型保存md5值
#os.walk输出的格式为[路径][文件夹名][文件名]
for path, folders, files in os.walk(src):
for file in files:
#一个文件中可能有多个文件和文件夹,使用此方法可以遍历所有文件
key = os.path.join(path, file) #将路径和文件名组合起来
md5dict[key] = check_md5(key) #计算md5值
# 把md5值字典保存到文件
#wb方式打开,若文件有则清空,若无则创建
with open(md5file, 'wb') as fobj:
pickle.dump(md5dict, fobj) #使用pickle.dump写入
#定义增量备份函数
#思路:先计算当前目录的md5值,然后把前一天的md5值取出来比较,若不一样则备份
def incr_backup(src, dst, md5file):
fname = '%s_incr_%s.tar.gz' % (os.path.basename(src), strftime('%Y%m%d')) #xxx_incr_20190710.tar.gz
#/tmp/demo/backup/xxx_incr_20190710.tar.gz
fname = os.path.join(dst, fname)
# 计算当前目录下文件的md5值
md5dict = {}
for path, folders, files in os.walk(src):
for file in files:
key = os.path.join(path, file)
md5dict[key] = check_md5(key)
# 取出前一天的文件md5值
with open(md5file, 'rb') as fobj:
old_md5 = pickle.load(fobj)
# 找出变化的文件和新增的文件,把它们压缩
tar = tarfile.open(fname, 'w:gz')
for key in md5dict: #遍历当前目录下的md5值
#有两种情况,old_md5.get(key)为空,则为新文件,old_md5.get(key)和新的md5值不一样,则文件发送改变
if old_md5.get(key) != md5dict[key]:
tar.add(key)
tar.close()
# 把当前的md5字典写到文件中,以便下一次比较使用
with open(md5file, 'wb') as fobj:
pickle.dump(md5dict, fobj)
if __name__ == '__main__':
src = '/tmp/demo/security' #源文件,要备份的文件
dst = '/tmp/demo/backup' #备份后的文件
md5file = '/tmp/demo/backup/md5.data' #md5值文件
if strftime('%a') == 'Mon': #周一执行完全备份
full_backup(src, dst, md5file)
else:
incr_backup(src, dst, md5file)