大数据-《Google File System》

2024-01-22  本文已影响0人  Wu杰语

1. 工具解决语言差距

首先上工具“有道速读”,这个工具号称大模型读论文工具,最有用的地方还是有道最擅长的翻译,其它涉及大模型的地方还在尝试,不敢妄评。(当前国外比较火的大模型读论文工具是DocsGPT,github地址是DocsGPT github,需要翻墙,还没有体验过。)

简单介绍一下,登录后,点击上传文件,左边是原文,右边是中文翻译,实现了:
1)点击左边段落,右边跳转到相应翻译
2)点击右边段落,左边跳转到相应原文
这个功能还是相当强大的,作为一个强大的论文翻译器,还是能很好解决中国人的语言差距。如下示意图:


GFS

借助工具阅读

下面几个步骤:
1)使用“有道速读”的"文章解读",大概了解一下论文讲什么


解读

2)使用“有道速读”的“文章摘要”,做个脑图,对论文有进一步的认识。观察了一下摘要,基本都是摘取段落的前一两句进行摘要,对做脑图,绰绰有余了。


摘要

2. GFS

借助工具,我们就可以跨过对英文不熟悉,开始愉快的阅读了。速读摘要,汇总GFS主要要点。论文按照假设、接口定义、架构、系统交互、容错余诊断几个方面讲解整篇论文。


全文结构

2.1 GFS的架构

GFS架构

GFS的架构如图,是master和chunserver的分布式服务组成,chunserver是规模成百上千计算的。这个架构有几个重要的概念要理解:

按照这些基本概念,我们可以根据论文学习并自己推测系统架构的运转。

2.2 控制流和数据流分离

控制流与数据流分离

2.2.1 租约

这里有个基本概念叫做租约(用2.2.2第二步,选取主Chunk,以及数据写入过程)。在client/master分布式一致性缓存系统中,当client向master请求元数据时,master返回数据并给返回的数据设置一个租约(lease)。这个租约有一定的有效期。在有效期内,master承诺不会修改跟这个租约关联的数据。不论master发出去的元数据client是否有收到,client是否宕机,master将不会对有租约的数据进行修改,这样变保证了client跟master的数据保持一致。

如果master在有效期内master收到请求修改带有租约的数据, master修改数据时,先阻塞所有对该数据的读请求,并等待该数据上的租约失效后再进行修改,然后再返回结果。
对于client,在读取元数据时, 先检查 本地的是否存在有效期内的cache,如果没有的话向master请求带有租约的元数据,并将其缓存起来。当租约到期后则将本地的cache删除

2.2.2 控制流和数据流分离

当GFS client向GFS master请求写文件的步骤如下:

3 小结

学习AI或者大数据领域,从论文入手是个提高品味的方法。对于大数据,反复通读google三架马车的论文,是个好办法,否则就是零零碎碎的知识。

上一篇 下一篇

猜你喜欢

热点阅读