群体遗传学比较与进化基因组基因家族分析

UPGMA法聚类分析——NTsys2.10e

2022-09-05  本文已影响0人  Wei_Sun

NTsys是一款强大的统计分析软件,具有多个统计模型组件,在植物多样性分析中经常会用到。其中最主要的模块是聚类分析,常用的方法有UPGMA、CL等。简而言之,是一款稳定的、用于多变量统计的软件。

官网:http://www.appliedbiostat.com/ntsyspc/ntsyspc.html

NTSYSpc 2.10e的特点包括:

1.数据格式

首先统计标记数据,将琼脂糖凝胶电泳图中清晰、无拖带、易分辨的条带记为“1”,反之则记为“0”。根据人工读带结果,在 Excel 表格中,行名为条带名称,列名为样本名称,建立矩阵,具体格式如下:


格式说明

其中最上面一行为注释信息:
*A1-1:表示数据为矩形数据矩阵;
*B1-175:表示共有175条条带;
*C1-100:表示共有100个样本;
*D1-0:没有缺失值,若有缺失,则用1表示。

2.数据格式转化

将EXCEL数据另存为97版Excel。在ntedit.exe中,将.xls格式转化为.nts格式:


ntedit.exe

File——open file in grid,导入.xls:



文件类型中选择Excel files,这里注意要关闭Excel文件,否则会报错,导入失败:

导入成功:



另存为.nts格式,file——save file as:

3.计算相似性矩阵

在ntsys.exe中进行后续计算:


ntsys.exe

在Similarity模块中选择Qualitative data,导入.nts数据,计算方法的矩阵系数coefficient选择DICE,指定输出文件位置及名称,随后进行运算compute:



运算结束:

4.聚类分析

在得到相似性矩阵后,在clustering模块中选择SAHN进行聚类分析,输入相似性矩阵结果,in case of ties选择FIND:


5.绘制聚类结果:

在Graphics模块中选择Tree plot,输入聚类分析结果,运算得到聚类图:



横坐标为相关系数,纵坐标为样本名称,根据自己的数据在合适的位置画一条竖线,进行类别划分:



图形的颜色、字体字号、横坐标范围等,都可以在option中的plot—option中进行调整,如当上图相关系数比较大时,可以设置x轴范围为0.75-1.0,设置方式如下:

图形导出:file—print,在属性—布局中,可以选择页面大小,以及方向:


6.检验聚类结果:

对聚类结果的质量进行检验,在clustering模块中选择cophenetic values,输入文件为步骤4中聚类分析得到的结果文件:


随后,在Graphics模块中选择Matrix comparison plot,输入文件1为步骤3中得到的相似性矩阵,输入文件2为上面得到的check文件:

得到两组数据之间的相关性点图,可以查看相关性系数,相关性系数越高,证明聚类分析越准确。

引用转载请注明出处,如有错误敬请指出。
上一篇下一篇

猜你喜欢

热点阅读