UPGMA法聚类分析——NTsys2.10e
NTsys是一款强大的统计分析软件,具有多个统计模型组件,在植物多样性分析中经常会用到。其中最主要的模块是聚类分析,常用的方法有UPGMA、CL等。简而言之,是一款稳定的、用于多变量统计的软件。
官网:http://www.appliedbiostat.com/ntsyspc/ntsyspc.html
NTSYSpc 2.10e的特点包括:
- 强大的统计分析应用;
- 多变量统计测试;
- 不同的分析功能:主成分分析、相关性分析、对应分析、聚类分析等;
- 绘制基因型分解树;
- UPGMA、CL等不同的聚类方法;
- 使用各种距离系数;
- 完全可编辑的图表和导出功能;
- 多维距离系数;
- 适合分组和基因型的Ni-Lee系数;
- 多变量分析和测试能力;
- 距离因子与基因型检测的多样性;
- 编辑绘制图标
……
1.数据格式
首先统计标记数据,将琼脂糖凝胶电泳图中清晰、无拖带、易分辨的条带记为“1”,反之则记为“0”。根据人工读带结果,在 Excel 表格中,行名为条带名称,列名为样本名称,建立矩阵,具体格式如下:
格式说明
其中最上面一行为注释信息:
*A1-1:表示数据为矩形数据矩阵;
*B1-175:表示共有175条条带;
*C1-100:表示共有100个样本;
*D1-0:没有缺失值,若有缺失,则用1表示。
2.数据格式转化
将EXCEL数据另存为97版Excel。在ntedit.exe中,将.xls格式转化为.nts格式:
ntedit.exe
File——open file in grid,导入.xls:
文件类型中选择Excel files,这里注意要关闭Excel文件,否则会报错,导入失败:
导入成功:
另存为.nts格式,file——save file as:
3.计算相似性矩阵
在ntsys.exe中进行后续计算:
ntsys.exe
在Similarity模块中选择Qualitative data,导入.nts数据,计算方法的矩阵系数coefficient选择DICE,指定输出文件位置及名称,随后进行运算compute:
运算结束:
4.聚类分析
在得到相似性矩阵后,在clustering模块中选择SAHN进行聚类分析,输入相似性矩阵结果,in case of ties选择FIND:
5.绘制聚类结果:
在Graphics模块中选择Tree plot,输入聚类分析结果,运算得到聚类图:
横坐标为相关系数,纵坐标为样本名称,根据自己的数据在合适的位置画一条竖线,进行类别划分:
图形的颜色、字体字号、横坐标范围等,都可以在option中的plot—option中进行调整,如当上图相关系数比较大时,可以设置x轴范围为0.75-1.0,设置方式如下:
图形导出:file—print,在属性—布局中,可以选择页面大小,以及方向:
6.检验聚类结果:
对聚类结果的质量进行检验,在clustering模块中选择cophenetic values,输入文件为步骤4中聚类分析得到的结果文件:
随后,在Graphics模块中选择Matrix comparison plot,输入文件1为步骤3中得到的相似性矩阵,输入文件2为上面得到的check文件:
得到两组数据之间的相关性点图,可以查看相关性系数,相关性系数越高,证明聚类分析越准确。
引用转载请注明出处,如有错误敬请指出。