Python利用requests批量进行CPGAVAS2注释

2022-08-04 本文已影响0人小潤澤

我们可以打开CPGAVA2的网址：http://47.96.249.172:16019/analyzer/annotate，利用示例数据来查看网络的交互情况

该网站的工作原理是利用上传数据的网页

上传数据的网页

然后返回一个 project 号，过大约20min，利用该 project 号去查询结果，

查询结果的网页

最后下载注释的结果

其中：

1.Request Headers Request Headers
当点击submit以后，Request Headers 提供了发送请求网页的header信息
2.Response Headers Response Headers 而 Response Headers 则提供了提交请求后，由服务器返回数据的header信息，可以看到返回的信息Location里面提供了二次跳转的路由，因此这个问题就变成了如何获取 project号，等待20min后进行结果的查询

首先利用 fiddler 来抓包network环境：
点击 http://47.96.249.172:16019/analyzer/annotate 这个路由

这里的name代表上传文件的所有参数，其他参数以字典的形式储存，而上传的文件单独以files（字典形式）进行储存，并写全所有的参数的内容（Content-Disposition，Content-Type，filename ，name ）

# 这个参数指代上传的文件，txt
files = {
   # name
    "file1": open("/.../sample.fas.txt",'rb'),
  # Content-Disposition的形式
    "Content-Disposition": "form-data",
 # Content-Type的形式
    "Content-Type": "text/plain",
 # filename 上传文件的名称
    "filename": 'sample.fas.txt'
}

而下载数据的link为 http://47.96.249.172:16019//tmp/dir_165959047398336/165959047398336.tar.gz 这种形式，即用 project id 作为结果的区别

完整代码：

import os
import time
import urllib.parse
import urllib.request
import requests
import json

url = "http://47.96.249.172:16019/analyzer/annotate"

# 这里存放其他上传文件的参数，这里的key代表html里面的参数name
params = {
        "projectName": "Project Name",
        "speciesName": "Species Name",
        "refdataset": "1. 43-plastomes",
        "misa_par1": " 1-10 2-6 3-5 4-5 5-5 6-5 ",
        "trf_par1": " 2 7 7 80 10 50 500 -f -d -m ",
        "vmatch_par1": " -f -p -h 3 -l 30 ",
        "isforupdate": 0,
        "emailAddress": "",
        "refdataset": "refds1",
        ## 这个参数指代是否提交，模拟点击submit
        "form_submit": "yes"
    }

# 这个参数指代上传的文件，txt
files = {
    "file1": open("/.../sample.fas.txt",'rb'),
    "Content-Disposition": "form-data",
    "Content-Type": "text/plain",
    "filename": 'sample.fas.txt'
}

res = requests.post(url,params,files=files,allow_redirects=False)
job_id = str(res.headers.get('location')).split('=')[1]
print(job_id)
time.sleep(200)

links = 'http://47.96.249.172:16019//tmp/dir_' + job_id + '/' + job_id + '.tar.gz'
os.chdir('/data/home/huanfan/')
os.system('wget' % (links))

Python利用requests批量进行CPGAVAS2注释

猜你喜欢

热点阅读