SAS | Statistical Analysis Syste
[本文是基于学校的课程和自身实操经验总结而得]
一:SAS的定义
- 官方的定义:SAS 是一套功能庞大的统计软件,全名为 Statistical Analysis System (统计分析系统)。历经多次改版更新后,现行版本(Unix、Windows) 9.3 除了增强原有统计功能外,还具备资料库管理、高阶语言撰写,应用系统开发软件,报告撰写,精密绘图,网路连接,资料共享等功能;目前更朝向个人化,MIDI等方向发展。
- 学术界的定义:Statistics Analysis System/program 统计分析软件,用来导大数据结果,以便于对大数据结果进行分析和研究。
- 商业界的定义:一个著名的商用统计学软件,聚焦大数据分析,物联网,云分析,机器学习,文本分析,数据可视化,场景营销,风险管理,实时反欺诈等领域。
二:SAS语言
一种主要用于统计分析的程序语言,其操作主要是靠编辑命令语,进而导大数据结果。我们学校电脑室配置的SAS软件如下图所示。
SAS软件图标三:SAS的功能
- 回归分析
- 属性数据分析
- 判别分析
- 得分分析
- 方差分析
- 多变量分析
- 聚类分析
- 残存分析
四:界面的功能
Editor- 编辑窗口,用来编写SAS程序
- 支持多窗口编辑,智能编辑
- 支持如复制、剪切、粘贴等常规操作
- 日志窗口,显示程序的运行情况
- 红色显示错误信息,绿色显示警告信息
- 输出窗口,显示输出结果
五:程序编辑的基本语法
- SAS程序中除了赋值、表达式、注释和空语句外,其他语句都要以SAS命令开头
- 一行可以输入多个语句,一个语句也可以多行输入,但每个语句必须以英文半角下分号";"结束
- 注释语句以“ /* ”开头,以“ */ ”结束
- 变量、数据集命名规则:以字母或下划线开头,由字母、数字、下划线构成,英文字母不区分大小写
- 字符型变量后要求使用“ $ ”说明符,默认为数值型
- 行保持标志符: @和@@
- @表示cards语句中的数据一行为一条记录,用多条input语句读入
- @@表示cards语句中的数据一行为多条记录,用一条input语句读入
六:程序结构
-
一个完整的SAS程序通常由“数据步”和“过程步”构成。
-
数据步(data步)语法结构为:
data 数据集名;
input变量名1.......变量名n[$];
其他数据步语句;
cards;
数据行
;
run; -
过程步语法结构为:
Proc 过程名[data输入数据集] [选项];
过程语句1[/选项];
过程语句2[/选项];
.....
run;
七:简单完整的SAS程序
data ex;
a=2;
b=a+3;
c=a**3;
proc print;
run;
八:学术领域SAS的应用:(input and output analysis)
SAS主要是用来导大数据结果,以便分析研究的课题。主要应用于以下相关研究中。
- industry production inducement coefficient
- influence and sensitivity coefficient
- employment inducement coefficient
- endogenous & exogenous factor coefficient
- price & salary & exchange rate coefficient
九:SAS program实操步骤
第一步:首先去中国国家统计年鉴和韩国银行经济统计系统(ECOS)里去下载中国的42个主产业和韩国28个主产业表(下载的都是按照大分类分的,不需要下载小分类项目)。然后在excel表格里把数据按照大分类整理出来。如下图所示:[ input and output analysis ]
第二步:根据SAS program的代入数据表格的要求去掉产业名称,并用代码col1, col2, col3, col4......这样来代替整理好后如下图所示:(下图整理出来的数据格式是可以直接代入SAS program 里面导出数据用的。我们在往SAS program里面代入数据时需要的三项内容:生产交易表,输入交易表以及42或者28个产业的产业名称code表。
生产交易表 输入交易表 产业名称code表下面是中国的42个产业表和韩国的28个产业表(都是按照大分类分的)
韩国产业表(大分类) 中国产业表(大分类)第三步:在操作运行SAS program 前,我们需要按照上面表格所示整理出下面四个文件并保存在桌面上,以备我们随时代入SAS里面进行导出结果。如图所示:
- tran2000(2000年里的生产交易表);
- impo2000(2000年里的输入交易表);
- s2000cd(是指2000年里主产业的名称代码);
- em2000(2000年里的所有大分类产业的各个领域的雇佣情况:就业者人数,雇佣人数);
第四步:编辑命令语,根据产业的多少以及年度内的统计数据结果来编辑相应的命令语。
SAS命令语第五步:以上步骤都准备就绪后就要开始打开SAS program 来进行代入数据分析了。打开界面步骤如下图所示:
log界面 editor界面上图的两个界面框中:上框是用来看导入的数据情况以及在导入过程中出现问题可以看说明的界面。下框是用来编辑命令语的。如下图所示:
复制SAS命令语到editor界面紧接着开始代入数据,点击电脑左上方的文件,点击插入数据,如图所示:
插入数据界面1点击插入数据按钮出来上图界面,点击“next", 出来以下图片
插入数据界面2点击”Browse" 紧接着开始在电脑桌面上找到要代入的数据文件,如图所示:
插入数据界面3找到自己想要代入的数据文件名,然后点击,如下图所示:
插入数据界面4代入数据文件后会出现一下图片,直接点“ok"即可。
插入数据界面5点击完”ok“后再点击”next“就会出现以下图片:
插入数据界面6然后再点击”next“就会出现以下界面:
插入数据界面7在以上图片的”Member"框里输入你刚才代入的文件名称,点击“next",就会出现以下图片
插入数据界面8点击上面图片中的”Browse", 出现下图所示图片:
插入数据界面9最后一次确认代入的文件名,在桌面上找到刚刚代入的文件名,点击文件代入。如下图所示:
插入数据界面10到了这一步如果出现小框里的이 파일은 이미 존재합니다(这个文件已经存在了)那说明文件名代入无误。紧接着点击“ 바꾸기”(完成)按钮就能出现下面这张图片:
插入数据界面11直接点击“finish" 那么整个数据代入过程就完成了。一共是4个文件,按照以上步骤一个一个代入即可。代入完所有的数据后就能在SAS里确认代入的数据总数。如图所示:
数据插入全部完成的界面确认好带入的数据总数以及产业个数后就要对最初输入的命令语做一点点的改动,包括命令语在桌面上的位置,以及命令语名称和产业个数等等。如下图所示:
命令语微调界面在确认命令语无误后点击下图图标中的“奔跑的小人儿”按钮操作运行或者直接按F8键操作。
运行按钮界面点击运行按钮后就能出来你要分析的结果。如图所示。将结果复制粘贴到excel表格里进行稍微的调整即可。那么整个分析的过程就结束了。
运行结果界面