2022-06-05 （1）获得带新冠症状的数据

2022-06-07 本文已影响0人千容安

在ImmuneAccess这个网站，首先找到病人信息（标签）的表格。

筛选“covid_category”这一列，得到具有症状“Acute、Exposed、Recovered”的病人数据，共157个样本。

先下载了72位受试者（1G）的数据，解压后是9.12G，但是里面所有的病人都不是带症状信息的那一百多人。

下载1414位受试者数据，买来5T的硬盘，下载两天内出现不明原因一直下载到一半中断。以为是下载到外接硬盘比较慢，但发现下载到本地也是同样速度，并且中断。

没有办法，让同学帮我下载了传给我，但是23G的大小我们还不知道用什么能传输（邮箱最高3G），他的网速快，显示下载需要8小时，我需要3天。

他建议我试试用迅雷下，我下载了迅雷，下载相同的数据，同时他那边也帮我下着，以防我这边下载出问题。
他又给我推荐了motrix，也是个下载工具，说是不限速的，可能比迅雷快一点，但是因为迅雷已经在下了，所以就不用这个了，一起下会变慢。
他网速快的原因可能是他用有线/网线，我用学校WIFI。我的工位附近没有网线接口，不知道我的电脑能不能用网线。
他下载完了，但是没有办法传给我，由于是一个压缩包有这么大，不能分开很多个3G传。

但是经过一个晚上，我的迅雷也下载完了，解压要40分钟，他那边就把压缩包删了。

但是解压完以后，没有得到期望的结果，生成了一个“ARIA2”文件，不知道是什么。

因为一开始用7z解压没有出现东西，所以下载了360压缩试一下。

同样解压不成功，尝试解压会出现“读写失败”并闪退。

下载了winRAR。
看样子winRAR真的可以，马上卸载360。解压所需2小时。

但是winRAR最后也显示失败了：压缩文件已损坏。

这个时候我只有最后一个办法。

让我同学再帮我下载一次，解压完了分批发给我。
我还有没有学上就寄托在他能不能成功了

早上7点半就来“催”情况，结果给我带来一个“好消息”。。。

但是后续不知道找到什么方法，处在解压过程中。解压2个半小时

解压了80%已经155G了，产生1116个文件，根据邮箱一次只能传3G，要分50多次发。。。并且同学的电脑也不能支撑接下来解压出来的文件的存放空间了。

发给我文件不现实。他让我在找找之前压缩文件损坏的原因。但是百度的修复压缩文件的方式并没有效。
由于解压出来的许多病人数据是我不需要的（我只需要157个），故让他删除一部分数据，只保留我需要的，与其找修复文件的方式（可能不成功），不如只发给我所需的内容反而是最快的。
我筛选得到157个病人的sample_id都是INCOV开头，以及在另一个标签xls里面，是ADIRP开头。都是157个，感觉可能是同样的数据用了不同的id（但是在解压完的文件里面是不同的）

解压完的文件里，I有157个，A有161个。都压缩（20分钟）后邮箱发与我。A开头的太多了要分两次发。并且我要下载（16分钟）完后他才能继续上传。

打开一个tsv，里面是如下的样子，可以在immunarch里用repLoad函数作为immunoseq格式加载。

然后下午我发现了一件细思极恐的事。

电脑上有一个203G的文件，一开始不知道是什么因为我确定没下过这么大的数据。然后推测，可能一开始解压成功了，只不过解压到了迅雷的下载文件夹中。
（我宁愿没有发现这件事）
好在得到数据了，都值得。

上一篇下一篇

猜你喜欢

热点阅读