#想写小组S2#30篇_阿檀小倪讲量化笔记

2017-01-18  本文已影响0人  juicebar

回答:如何进行描述性数据分析?

当所有数据收集回来之后,怎么样对数据进行分析?

小倪分三步骤讲解:数据大通关(讲解基本概念)操作跟着做 图标会解读

示范:

数据大通关

描述性统计研究

什么是描述性统计:

用一种比较简单的方式,呈现和概括一堆数据基本的特征。

常用的描述性统计分三个类别:

频率统计

集中量数

离散趋势

 

频率统计:计算每一种类别里究竟有多少个数据。也就是数数,数多少个。

集中量数:描述一堆数据聚拢的程度。好像要找出沙堆堆积的最高点,常用指标就是平均数,所有数据加起来的和,除以数据的个数。

离散趋势:描述一堆数据分散的程度。比如说:全距,用一组数据中最大值,减去最小数据,所得到的值。全距就描述这堆数据分散得有多宽,有多广。

 

案例:

比较三种不同读物的词汇量,那就把文本中每种等级的词汇,都列出来,就可以了,

所以频率统计是最适合这个研究的。

由于这个研究里每类读物都有28万词汇,人工来不及。

所以就用SPSS。

 

打开SPSS,首先要把分析的数据全都弄进SPSS中,即,录入。

案例中的两位学者用了range对文本词汇按照词频来排序。对于选定的28万个词汇,每个词汇都有一个编码,这就形成了一个变量,我们把这个变量叫做词汇类别。所以这一列数据就是按照单词出现的顺序,依次编码所收集到的数据,出现了一列数据。这里仅举例说明,这13个数据代表这句话里的13个单词。在这个软件最上层选项中,有一个分析按钮。点击分析,看到下拉菜单,每一种就是不同的分析方法。选择描述统计。右边菜单有不同描述统计的方法。本研究要选择频率。出现一个选择框,左边是已有的变量,右边是要进行分析的变量。把词汇类别,从左边拖拽到右边。单击右边的图表按钮。选择直方图,勾选在直方图上显示正态曲线,按继续按钮,回到上层菜单,按确定按钮。

完成数据分析,SPSS自动打开一个结果窗口,看到好几个图表。

 

第一个表:统计量的总体分析,报告一个研究中,所有数据的个数。专业术语叫:样本量。第一行,是有效数据个数,第二行是缺失数据的个数。

案例中两位学者的研究的有效值+缺失值,应该是28万多个。

 

第二个表:词汇类别。(需要重点分析)

第一列,不同类别,1000词库,2000词库,

第二列,每一种的个数。

第三列,它占总样本量的百分比。

第四列,个数占所有有效数据的比例。

第五列,累加百分比

 

1000词汇,总共6个,占所有数据13的46.2%,有效百分比 6/有效数值,因为我们这里举例中没有缺失数值,所以两个百分比一样。如果有缺失数值,通常,有效百分比比百分比略高一点。最后,累加百分比,1000词库6个单词,占46.2%。加2000词库的比例,69.2%左右。就是累加词汇。

案例中研究主要关心有效百分比,即每种词库分别占多少比例,以及从一千到两千到三千词汇,加起来总共的累加百分比,看什么时候能到98%。

 

直方图,用图片方式表示不同类别的个数。

横轴,不同类别

纵轴,个数

比如1000词汇,用1表示,其词汇总共有6个,它所代表的图形方块,就最高。

 

最后一步,就是要把答案呈现给别人,就是呈现结果。

数据分析结果——学术结果报告

 

具体来说,要遵循三个步骤。

第一步:对应问题。即,对应到具体的问题。

第二步:绘制图表。即,根据我们的问题重新绘制图表。

第三步:文字说明。即,给图片配上恰当的文字说明。

 

案例:

第一步:对应问题

研究问题1: What is the vocabulary size necessary to reach 98% coverage of text written for children?

所以我们要回答三种不同的文本中对词汇覆盖率的累加比例

什么时候能达到98%?

 

第二步:绘制图表

不能直接把SPSS的图表贴过去。要重新绘制。有三个要求:

要求:

简单:线条清晰。三线表,表里只有三条线,最上层、第一栏下、最下层

,此外,表里不要再加其他横线和竖线

 

清楚: 行列与符号 过长的词汇用缩写方式,缩写内容要在表格最下面标注。

 

明了:重要信息一定要标记。

当图表中看到达到98%的时候,就要用星号标注出来

 

第三步:文字说明

配合图表,为这些图表配上恰当的文字说明,来解释数字本身没有办法说明的问题。

说明相关数字之间的逻辑关系。

文字解说要进一步指出,

对于儿童读物、大人读物来说,至少需要10000词汇库才能覆盖98%的文本内容

对于外语学习者的分级读物:

只用3000词汇库就能覆盖98%的文本内容

对于前两种材料来说,1000词汇库只能覆盖82%和83.25%

2000词汇,只能接近90%的覆盖率

 

把这些关键数据抽取出来放在一起,加以解说,才能得出结论:

国外儿童读物确实比外语学习者的分级读物,更难一些。

 

案例中的语言表达:

介绍对应的表格

The cumulative coverage, including proper nouns and marginal words for the three corpora, is shown in Table 3.

介绍表里的数值的计算方式 即每个数值是什么含义?

The 83.25% in the top cell of School Journal is the sum of 79.57%()the coverage of the most frequent1,000 words), 3.47%(proper nouns), and 0.21% (marginal words)

列举关键数值,进行对比

Including proper nouns and marginal words, the vocabulary size required to reach 98% coverage was 10,000 word families for the School Journal and the WWC. In contrast, only 3,000 word families plus proper nouns and marginal words was necessary to reach 98% coverage of the graded readers.

 

#

上一篇 下一篇

猜你喜欢

热点阅读