遗传多样性软件 Structure 使用说明
Structure
structure下载地址
Structure 中文操作说明 链接: https://pan.baidu.com/s/1zZOkgBBMr9gOKlQF2-sDaw 提取码: 6vg5
1 输入文件格式确定
一直提示输入格式有误
image.png因为得到的原始数据是以下这种,每个样本仅含有一行,每个位点含有2行数据 原始ssr数据 需要转换成以下数据,样本的ssr位点数据都在一行(每个样本占有两行数据),已测试MS tools可转换成功,SSR数据格式转换软件DataFormater也可以 可识别的输入格式 由于DataFormater([1]樊文强,盖红梅,孙鑫,杨爱国,张忠锋,任民.SSR数据格式转换软件DataFormater[J].分子植物育种,2016,14(01):265-270.)的软件网页失效,联系了下作者,感谢作者回复。软件已上传至百度云,链接: https://pan.baidu.com/s/1BQvtjtH5TIOAtLXAPTOO2A 提取码: e5rn image.png
出上每个样本2列数据外,以下这个格式也可以识别,引物为单独一行,单个tab分割,这种格式需要在STEUCTURE软件导入数据的时候选择对应的格式,即选择导入的格式为单个样本单行,单个SSR数据有2行,其他选择有样本列,种群id列,及倍性。以下格式可使用Genalex转换,将原始数据储存为GenALEX格式并作为基础格式还是比较方便的,Genalex只支持共显性数据的转换。
singleline
新建project 导入数据是的操作
(2) 填入相关内容,并填写数据中代表缺失数据的数值,genalex中0一般为缺失,转换后好像会-9为缺失值。 image.png
(3)选择是否有一行是标记的名称,其他不懂,Special format下的是单个样本的数据在一行里
image.png
(4)选择有哪些列存在,会按照你选择的几项,按顺序读取你原始文件里的列,
2 具体操作
(1) 新建project 并导入数据
(2) 设置参数文件,
具体的参数主要是以下,其他参数也不是很明白
image.png
(3) 开始job, 设置每个k 的run 即可
(4)压缩result文件夹,使用 Structure Harvester得到最佳k值
structure 每个k有多个run,不同的RUN算是重复
inputfile格式:整数标记基因型、不出现的基因型代表确实数据、格式为txt文件
第一列为个体变化(2行或一行),第二行为取样群体编号
文件内容
image.png一般选择混合模型
LOCPRIOR模型:利用取样位置作为先验信息来辅助聚类——用于结构信号比较弱的数据集
popflag :与已知参考群体比较,比较有用
不设置Popflag好像不会有 clumpp中的POPFILE 类型数据产生,只有个体的Q矩阵,
当设置k的范围较高时,且MCMC哪个参数大时,会运行过程中突然停止,然后删除包括已经产生的结果的文件夹Results,再次运行成功但没有Results文件夹。可能重新运行软件不会检查结果文件夹Results是否存在。删除以往结果只要全选删除文件夹内结果就可以不必要删除文件夹
如果需要在结果文件中体现某个样本所属的群体,需要使用Popflag?
试了一下,如果没有popflg是不显出某个样本所属群体的,这样在用disturt画图的时候就不能将一个群体的样本单独绘制在一起了。 Popflag与结果里样本是否显示群体信息无关,跟popdata有关,参数挺多的