生信基础知识

测序数据文件中MD5是个啥 ?不要无视我的存在!

2019-05-28  本文已影响0人  组学大讲堂

测序公司在释放原始数据的目录下都会有一个MD5文件,对于不太了解MD5的老师,可能会直接忽略这个文件。实际上这个文件还是很有必要的。那MD5到底是干嘛的呢?

MD5简介

MD5全称MD5消息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。其典型应用就是对一段信息产生信息摘要,防止被篡改。简单点解释,就是MD5会为任何文件或信息产生一个“数字指纹”,如同人的指纹互不相同,不同文件的MD5也各不相同,哪怕是最细微的改动,其MD5也会相差甚远。只有在文件完全一样时,其MD5才会一致(这句话其实是错的,不同文件MD5可能会一样,但是概率非常非常小,理解时不用太过在意)。

例如,我们常常在某些软件下载站点的软件信息中看到其MD5值,它的作用就在于我们可以在下载该软件后,对下载后的文件用专门的软件(如Windows MD5 Check等)做一次MD5校验,以确保我们获得的文件与该站点提供的文件为同一文件,而不是被篡改植入病毒的。

讲到这里,大家应该对MD5有了一个大概的了解。我们回到文章最开始的问题,测序公司在产生原始数据时,会为每个文件生成一个MD5值,与原始数据一同交给客户。客户在下载完数据后,最好对每个数据进行一次MD5校验,以确保下载的数据与测序公司提供的完全一致,防止下载时出错导致数据丢失,进而影响后续数据的分析。那怎样进行校验呢,不要急,往下看。

MD5校验工具

网上可以校验MD5的软件有很多,这里我们简单介绍几个。

1.MD5Check

下载链接:

https://www.softpedia.com/get/System/File-Management/MD5-Check.shtml

使用方法也很简单,一张图就能看懂。

2.好压

好压是压缩解压缩的软件,它也是可以计算MD5的。

右键单击要校验的文件,好压的 “其他压缩命令” 下有一个 “计算MD5” 功能。

3.md5sum

上面的都是Windows中的MD5校验工具,linux中也有计算MD5的命令--md5sum。用法如下:

$md5sum data.file  

0a6de444981b68d6a049053296491e49  data.file

好了,MD5就讲到这了,相信大家体会到MD5的重要作用了吧!请不要再无视我!

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5.微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

上一篇下一篇

猜你喜欢

热点阅读