课题研究

2022-06-05 (1)获得带新冠症状的数据

2022-06-07  本文已影响0人  千容安

在ImmuneAccess这个网站,首先找到病人信息(标签)的表格。

筛选“covid_category”这一列,得到具有症状“Acute、Exposed、Recovered”的病人数据,共157个样本。

先下载了72位受试者(1G)的数据,解压后是9.12G,但是里面所有的病人都不是带症状信息的那一百多人。

下载1414位受试者数据,买来5T的硬盘,下载两天内出现不明原因一直下载到一半中断。以为是下载到外接硬盘比较慢,但发现下载到本地也是同样速度,并且中断。

没有办法,让同学帮我下载了传给我,但是23G的大小我们还不知道用什么能传输(邮箱最高3G),他的网速快,显示下载需要8小时,我需要3天。

他建议我试试用迅雷下,我下载了迅雷,下载相同的数据,同时他那边也帮我下着,以防我这边下载出问题。
他又给我推荐了motrix,也是个下载工具,说是不限速的,可能比迅雷快一点,但是因为迅雷已经在下了,所以就不用这个了,一起下会变慢。
他网速快的原因可能是他用有线/网线,我用学校WIFI。我的工位附近没有网线接口,不知道我的电脑能不能用网线。
他下载完了,但是没有办法传给我,由于是一个压缩包有这么大,不能分开很多个3G传。

但是经过一个晚上,我的迅雷也下载完了,解压要40分钟,他那边就把压缩包删了。

但是解压完以后,没有得到期望的结果,生成了一个“ARIA2”文件,不知道是什么。

因为一开始用7z解压没有出现东西,所以下载了360压缩试一下。

同样解压不成功,尝试解压会出现“读写失败”并闪退。

下载了winRAR。
看样子winRAR真的可以,马上卸载360。解压所需2小时。

但是winRAR最后也显示失败了:压缩文件已损坏。

这个时候我只有最后一个办法。

让我同学再帮我下载一次,解压完了分批发给我。
我还有没有学上就寄托在他能不能成功了

早上7点半就来“催”情况,结果给我带来一个“好消息”。。。

但是后续不知道找到什么方法,处在解压过程中。解压2个半小时

解压了80%已经155G了,产生1116个文件,根据邮箱一次只能传3G,要分50多次发。。。并且同学的电脑也不能支撑接下来解压出来的文件的存放空间了。

发给我文件不现实。他让我在找找之前压缩文件损坏的原因。但是百度的修复压缩文件的方式并没有效。
由于解压出来的许多病人数据是我不需要的(我只需要157个),故让他删除一部分数据,只保留我需要的,与其找修复文件的方式(可能不成功),不如只发给我所需的内容反而是最快的。
我筛选得到157个病人的sample_id都是INCOV开头,以及在另一个标签xls里面,是ADIRP开头。都是157个,感觉可能是同样的数据用了不同的id(但是在解压完的文件里面是不同的)

解压完的文件里,I有157个,A有161个。都压缩(20分钟)后邮箱发与我。A开头的太多了要分两次发。并且我要下载(16分钟)完后他才能继续上传。

打开一个tsv,里面是如下的样子,可以在immunarch里用repLoad函数作为immunoseq格式加载。

然后下午我发现了一件细思极恐的事。

电脑上有一个203G的文件,一开始不知道是什么因为我确定没下过这么大的数据。然后推测,可能一开始解压成功了,只不过解压到了迅雷的下载文件夹中。
(我宁愿没有发现这件事)
好在得到数据了,都值得。

上一篇下一篇

猜你喜欢

热点阅读