Nvwa: 学习+理解+复现
2023-04-03 本文已影响0人
LET149
1. 文章
Deep learning of cross-species single-cell landscapes identifies conserved regulatory programs underlying cell types
image.png
2. 官网
https://bis.zju.edu.cn/nvwa/index.html
image.png
2.1 Labels
https://bis.zju.edu.cn/nvwa/dataset.html
截屏2023-04-03 21.52.30.png
Dataset.Dmel_train_test.cells.csv
一个物种所有细胞的细胞名和细胞类型注释
Dataset.Dmel_train_test.genes.csv
一个物种所有细胞表达的所有基因和其作为Train,Valid和Test数据集的分类
Dataset.Dmel_train_test.label.npz
一个物种所有细胞中所有基因的表达情况(二值化)
2.2 Datasets
https://bis.zju.edu.cn/nvwa/dataset.html
截屏2023-04-03 21.46.02.png
3. Dataset.Species_train_test.h5
以
Dataset.Dmel_train_test.h5为案例进行讲解
Dataset.Dmel_train_test.h5: 长度为11的列表
Dataset.Dmel_train_test
- 包含一个物种的所有细胞的细胞名和细胞类型类型注释
Train,Valid和Test数据集中的所有基因的基因名和TSS上下10Kb的序列Train,Valid和Test数据集中的所有基因在所有细胞里的表达情况(二值化)
Dataset.Dmel_train_test[[1]]:image.png
4行77337列 的矩阵或数组;77337为果蝇数据中所有的细胞- 第一行是细胞 Barcode;其余三行为物种名和两个细胞类型定义的层次下的细胞名称
Dataset.Dmel_train_test[[2]]:kkkkkkkkkkkkkk.png
1行77337列 的数组(向量);- 其中的每个元素为一个细胞的 Barcode
test 基因数据集:
Dataset.Dmel_train_test[[3]]:image.png
20000x4x1000的数组,用来表示1000个基因的TSS上下游各10Kb的序列信息- 用
One-Hot方式编码而成,其中1用True表示,0用False表示
Dataset.Dmel_train_test[[4]]:image.png
1x1000数组,Dataset.Dmel_train_test[[3]]中所有基因的基因名
Dataset.Dmel_train_test[[5]]:image.png
77337x1000数组- 表示
Dataset.Dmel_train_test[[3]]中所有的基因在77337个细胞中的表达情况,用1和0来表示在所有细胞中的开闭情况
train 基因数据集:
Dataset.Dmel_train_test[[6]]:image.png
20000x4x14227的数组,用来表示14227个基因的TSS上下游各10Kb的序列信息- 用
One-Hot方式编码而成,其中1用True表示,0用False表示
Dataset.Dmel_train_test[[7]]:image.png
1x14227数组,Dataset.Dmel_train_test[[6]]中所有基因的基因名
Dataset.Dmel_train_test[[8]]:image.png
77337x14227数组- 表示
Dataset.Dmel_train_test[[6]]中所有的基因在77337个细胞中的表达情况,用1和0来表示在所有细胞中的开闭情况
valid 基因数据集:
Dataset.Dmel_train_test[[9]]:image.png
20000x4x1000的数组,用来表示1000个基因的TSS上下游各10Kb的序列信息- 用
One-Hot方式编码而成,其中1用True表示,0用False表示
Dataset.Dmel_train_test[[10]]:image.png
1x1000数组,Dataset.Dmel_train_test[[9]]中所有基因的基因名
Dataset.Dmel_train_test[[11]]:image.png
77337x1000数组- 表示
Dataset.Dmel_train_test[[3]]中所有的基因在77337个细胞中的表达情况,用1和0来表示在所有细胞中的开闭情况
4. GitHub
https://github.com/JiaqiLiZju/Nvwa
图片.png
1_train/ 1_hyperopt_BCE_best.py
- 用来训练数据集
用法:
python 1_train/1_hyperopt_BCE_best.py ./Dataset.Dmel_train_test.h5
2_explain/ 1_run_explain.py
- 用来发现训练后网络中的有用特征
用法:
python 2_explain/1_run_explain.py ./Dataset.Dmel_train_test.h5
image.png
image.png
截屏2023-04-03 21.52.30.png
截屏2023-04-03 21.46.02.png
Dataset.Dmel_train_test
image.png
kkkkkkkkkkkkkk.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
图片.png