0.单细胞常见问题系列

2024-08-08  本文已影响0人  MYS_bio_man

Q: res设置?0.4~1.4等的选择上有啥讲究没有呢?

A: 个人习惯!没有,分辨率越高分的越细,如果生物学背景知识可以判断,可以随意设,如果不行,结合markers和tree判断。 分辨率选择

Q: 这种情况对结果有没有影响呢?

A:没有!细胞名字几乎没有影响,主要是你的meta表格。 meta预设信息

Q: meta必须设置么 好像有些分析中也可以不要?
A: 看你需要,如果哦没有任何预设,meta也不重要,后续的信息都会存到meta里。

Q:数据库推荐(关于marker)?
A:cell marker CellMarker (hrbmu.edu.cn),比较准确;
其他还有mouse cell atlas MCA | Mouse Cell Atlas (zju.edu.cn)
肺的数据可以参考lunggens数据库LungGENS (cchmc.org),lunggens就是lungmap里面的;
PanglaoDBPanglaoDB - A Single Cell Sequencing Resource For Gene Expression Data,可以和cellmarkers相互补充印证,该网站基于RNAseq和实验数据出发的,但我实践发现没有cellmarkers准,非常奇怪,所以我认为RNAseq的表型只是大家愿意描述的那一种(可以用来看不确定的细胞类型);
Cell Markers (biolegend.com)基于纯实验的markers,不区分组织,仅区分细胞,所以这个网站的markers都是广谱的。

Q: FindVariableFeatures(高可变基因)和FindMarkers(差异表达基因)的区别?
A: 1. FindVariableFeatures()–特征选择:
高变异基因就是highly variable features(HVGs),就是在细胞与细胞间进行比较,选择表达量差别最大的基因,Seurat使用FindVariableFeatures函数鉴定高可变基因,这些基因在不同细胞之间的表达量差异很大(在一些细胞中高表达,在另一些细胞中低表达)。默认情况下,会返回2,000个高可变基因用于下游的分析,如PCA等。利用FindVariableFeatures函数,会计算一个mean-variance结果,也就是给出表达量均值和方差的关系并且得到top variable features,这一步的目的是鉴定出细胞与细胞之间表达量相差很大的基因,用于后续鉴定细胞类型。
A: 2. FindMarkers()–寻找差异表达基因:
Seurat使用FindMarkers和FindAllMarkers函数进行差异表达基因的筛选
两篇很好的单细胞分析问答贴Confusion about FindMarkers(), FindVariableFeatures(),RunTSNE(), and RunUMAP() in seurat package:https://www.biostars.org/p/406388/ ; https://www.jianshu.com/p/5a06ebfba7bd

分析过程反复执行命令(如RunPCA)有没有什么影响?
在单细胞RNA测序(scRNA-seq)数据分析过程中,RunPCA 是一个常见的步骤,用于降维处理数据。反复执行 RunPCA 可能会带来以下影响:

  1. 结果的一致性
  • 理论上,如果你在相同的输入数据上多次运行 RunPCA,结果应该是一致的,尤其是在没有进行其他数据处理步骤或参数调整的情况下。
  • 但在一些实现中,PCA 可能依赖于某些随机初始化步骤。如果没有设定随机种子(random seed),每次运行的结果可能会有微小的差异。这种差异在后续步骤中可能会被放大。
  1. 计算资源的浪费
  • 反复执行 RunPCA 会占用计算资源,增加运行时间,而在相同的数据集和参数下,多次运行通常是不必要的。
  • 建议在一次运行后保存 PCA 结果,避免重复计算。
  1. 数据处理链的复杂性
  • 如果在不同的处理中改变了数据(例如过滤细胞、基因,或者进行了归一化),那么每次运行 PCA 的结果可能不同,这取决于输入数据的变化。你需要确保输入数据的一致性,才能比较多次运行的 PCA 结果。
  1. PCA 维度选择
  • 在运行 PCA 时,通常会选择保留前几个主成分(PCs)。每次运行 PCA 时,如果数据略有不同,最有解释力的主成分可能会有一些变化。这对下游分析(如聚类分析或 UMAP/t-SNE 降维)可能有影响。

最佳实践建议:

  • 设置随机种子:为了确保结果的一致性,建议在运行 RunPCA 时设置一个固定的随机种子。
  • 保存结果:在第一次运行后保存 PCA 结果,可以避免重复计算。
  • 保持数据一致:如果在不同步骤之间改变了数据集,确保每次 PCA 的输入数据集是你想要的,以便得到可比较的结果。
    总结来说,反复执行 RunPCA 本身并不会对结果产生重大影响,但在保证计算资源的有效利用和结果的一致性方面,还是应该小心处理。
上一篇 下一篇

猜你喜欢

热点阅读