群体遗传学

遗传多样性软件 Structure 使用说明

2020-09-22 本文已影响0人 EZ

Structure
structure下载地址

Structure 中文操作说明链接: https://pan.baidu.com/s/1zZOkgBBMr9gOKlQF2-sDaw 提取码: 6vg5

简单的操作流程

1 输入文件格式确定

一直提示输入格式有误

image.png
因为得到的原始数据是以下这种，每个样本仅含有一行，每个位点含有2行数据

原始ssr数据需要转换成以下数据，样本的ssr位点数据都在一行（每个样本占有两行数据），已测试MS tools可转换成功，SSR数据格式转换软件DataFormater也可以

可识别的输入格式由于DataFormater（[1]樊文强,盖红梅,孙鑫,杨爱国,张忠锋,任民.SSR数据格式转换软件DataFormater[J].分子植物育种,2016,14(01):265-270.）的软件网页失效，联系了下作者，感谢作者回复。软件已上传至百度云，链接: https://pan.baidu.com/s/1BQvtjtH5TIOAtLXAPTOO2A 提取码: e5rn

image.png
出上每个样本2列数据外，以下这个格式也可以识别,引物为单独一行，单个tab分割，这种格式需要在STEUCTURE软件导入数据的时候选择对应的格式，即选择导入的格式为单个样本单行，单个SSR数据有2行，其他选择有样本列，种群id列，及倍性。以下格式可使用Genalex转换，将原始数据储存为GenALEX格式并作为基础格式还是比较方便的，Genalex只支持共显性数据的转换。

singleline

新建project 导入数据是的操作

（1）填入project名称，选择保存目录，选择你的数据

image.png
（2）填入相关内容，并填写数据中代表缺失数据的数值，genalex中0一般为缺失，转换后好像会-9为缺失值。

image.png

（3）选择是否有一行是标记的名称，其他不懂，Special format下的是单个样本的数据在一行里

image.png
（4）选择有哪些列存在，会按照你选择的几项，按顺序读取你原始文件里的列，

2 具体操作

(1) 新建project 并导入数据
(2) 设置参数文件，
具体的参数主要是以下，其他参数也不是很明白

image.png

(3) 开始job, 设置每个k 的run 即可
(4)压缩result文件夹，使用 Structure Harvester得到最佳k值

structure 每个k有多个run，不同的RUN算是重复

inputfile格式：整数标记基因型、不出现的基因型代表确实数据、格式为txt文件
第一列为个体变化（2行或一行），第二行为取样群体编号

文件内容

image.png

一般选择混合模型
LOCPRIOR模型：利用取样位置作为先验信息来辅助聚类——用于结构信号比较弱的数据集

popflag ：与已知参考群体比较，比较有用
不设置Popflag好像不会有 clumpp中的POPFILE 类型数据产生，只有个体的Q矩阵，

当设置k的范围较高时，且MCMC哪个参数大时，会运行过程中突然停止，然后删除包括已经产生的结果的文件夹Results，再次运行成功但没有Results文件夹。可能重新运行软件不会检查结果文件夹Results是否存在。删除以往结果只要全选删除文件夹内结果就可以不必要删除文件夹

如果需要在结果文件中体现某个样本所属的群体，需要使用Popflag？
试了一下，如果没有popflg是不显出某个样本所属群体的，这样在用disturt画图的时候就不能将一个群体的样本单独绘制在一起了。 Popflag与结果里样本是否显示群体信息无关，跟popdata有关，参数挺多的

上一篇下一篇

猜你喜欢

热点阅读