0.单细胞常见问题系列

2024-08-08 本文已影响0人 MYS_bio_man

Q: res设置？0.4~1.4等的选择上有啥讲究没有呢？

A: 个人习惯！没有，分辨率越高分的越细，如果生物学背景知识可以判断，可以随意设，如果不行，结合markers和tree判断。分辨率选择

Q: 这种情况对结果有没有影响呢?

A：没有！细胞名字几乎没有影响，主要是你的meta表格。 meta预设信息

Q: meta必须设置么好像有些分析中也可以不要?
A: 看你需要,如果哦没有任何预设，meta也不重要,后续的信息都会存到meta里。

Q：数据库推荐（关于marker）？
A：cell marker CellMarker (hrbmu.edu.cn)，比较准确；
其他还有mouse cell atlas MCA | Mouse Cell Atlas (zju.edu.cn)；
肺的数据可以参考lunggens数据库LungGENS (cchmc.org)，lunggens就是lungmap里面的；
PanglaoDBPanglaoDB - A Single Cell Sequencing Resource For Gene Expression Data，可以和cellmarkers相互补充印证，该网站基于RNAseq和实验数据出发的，但我实践发现没有cellmarkers准，非常奇怪，所以我认为RNAseq的表型只是大家愿意描述的那一种（可以用来看不确定的细胞类型）；
Cell Markers (biolegend.com)基于纯实验的markers，不区分组织，仅区分细胞，所以这个网站的markers都是广谱的。

Q: FindVariableFeatures（高可变基因）和FindMarkers（差异表达基因）的区别?
A: 1. FindVariableFeatures()–特征选择:
高变异基因就是highly variable features（HVGs），就是在细胞与细胞间进行比较，选择表达量差别最大的基因，Seurat使用FindVariableFeatures函数鉴定高可变基因，这些基因在不同细胞之间的表达量差异很大（在一些细胞中高表达，在另一些细胞中低表达）。默认情况下，会返回2,000个高可变基因用于下游的分析，如PCA等。利用FindVariableFeatures函数，会计算一个mean-variance结果，也就是给出表达量均值和方差的关系并且得到top variable features,这一步的目的是鉴定出细胞与细胞之间表达量相差很大的基因，用于后续鉴定细胞类型。
A: 2. FindMarkers()–寻找差异表达基因:
Seurat使用FindMarkers和FindAllMarkers函数进行差异表达基因的筛选
两篇很好的单细胞分析问答贴Confusion about FindMarkers(), FindVariableFeatures(),RunTSNE(), and RunUMAP() in seurat package：https://www.biostars.org/p/406388/ ; https://www.jianshu.com/p/5a06ebfba7bd

分析过程反复执行命令（如RunPCA）有没有什么影响？
在单细胞RNA测序（scRNA-seq）数据分析过程中，RunPCA 是一个常见的步骤，用于降维处理数据。反复执行 RunPCA 可能会带来以下影响：

结果的一致性：

理论上，如果你在相同的输入数据上多次运行 RunPCA，结果应该是一致的，尤其是在没有进行其他数据处理步骤或参数调整的情况下。

但在一些实现中，PCA 可能依赖于某些随机初始化步骤。如果没有设定随机种子（random seed），每次运行的结果可能会有微小的差异。这种差异在后续步骤中可能会被放大。

计算资源的浪费：

反复执行 RunPCA 会占用计算资源，增加运行时间，而在相同的数据集和参数下，多次运行通常是不必要的。

建议在一次运行后保存 PCA 结果，避免重复计算。

数据处理链的复杂性：

如果在不同的处理中改变了数据（例如过滤细胞、基因，或者进行了归一化），那么每次运行 PCA 的结果可能不同，这取决于输入数据的变化。你需要确保输入数据的一致性，才能比较多次运行的 PCA 结果。

PCA 维度选择：

在运行 PCA 时，通常会选择保留前几个主成分（PCs）。每次运行 PCA 时，如果数据略有不同，最有解释力的主成分可能会有一些变化。这对下游分析（如聚类分析或 UMAP/t-SNE 降维）可能有影响。

最佳实践建议：

设置随机种子：为了确保结果的一致性，建议在运行 RunPCA 时设置一个固定的随机种子。

保存结果：在第一次运行后保存 PCA 结果，可以避免重复计算。

保持数据一致：如果在不同步骤之间改变了数据集，确保每次 PCA 的输入数据集是你想要的，以便得到可比较的结果。
总结来说，反复执行 RunPCA 本身并不会对结果产生重大影响，但在保证计算资源的有效利用和结果的一致性方面，还是应该小心处理。

0.单细胞常见问题系列

最佳实践建议：

猜你喜欢

热点阅读