单细胞学习单细胞

AnnData对象处理

2021-11-17  本文已影响0人  myshu

AnnData是python中存储单细胞数据的一种格式,常用于scanpy。

1、认识结构

基本结构如下:


参考链接:https://cellgeni.readthedocs.io/en/latest/visualisations.html
4个重要的构成:

2、信息提取

注意这里是python环境哈

# 数据数目统计
data.n_obs  # 返回细胞数 2695
data.n_vars  # 返回基因数 18270
data.shape # (2695, 18270)
data.T  # 基因和cell转置矩阵,用的好像不多?
data.to_df()  # 转成矩阵,列为基因,行为细胞。可以使用data.T.to_df()就可以转成行为细胞,列为基因的矩阵了

# 数据键值提取
data.obs_keys() # 细胞注释信息的keys,比如 ['ClusterID', 'ClusterName', 'SCT_snn_res_0_8', 'nCount_SCT', 'nCount_Spatial', 'nFeature_SCT', 'nFeature_Spatial', 'orig_ident', 'seurat_clusters', 'imagecol', 'imagerow'']
data.obs_names  # 返回细胞ID 数据类型是object
data.var.index  # 返回基因 数据类型是object
data.var_names.to_list()  # 返回基因 数据类型是list
data.obs.head() # 查看前5行的数据

# 其他的数据组成也可以使用

也可以使用data.然后输入Tab来查看可以使用的函数或变量,大家可以摸索下:

AnnData数据包含的用法
当然,使用比如data.obs然后输入Tab来查看当前data.obs数据可以使用的函数,有很多,大家不知道怎么处理的时候可以看看。

3、提取子数据

# 先获取cell或者gene list
gene20 = data.var_names.to_list()[:20]
data[:,gene20]  #  2695 x 20
cell20 = data.obs_names.to_list()[:20]
data20 = data[cell20,gene20]  # 20 x 20
上一篇 下一篇

猜你喜欢

热点阅读