Data Analysis Interview

题目31-40

2019-05-03  本文已影响21人  快乐自由拉菲犬

31.抽样估计

抽样估计(Sampling estimation)又称为抽样推断,也称为参数估计。它是在抽样调查的基础上所进行的数据推测,即用抽样调查所得到的一部分单位的数量特征来估计和推算总体的数量特征。抽样估计是对总体进行描述的另一种重要方法。它具有花费小、适用性强、科学性高等特点。因此,国内外在许多领域都广泛地运用抽样推断来搜集和分析统计资料。

抽样估计的方法
抽样估计有点估计区间估计两种方法。
点估计,又称定值估计,就是用实际样本指标数值作为总体参数的估计值。点估计的方法简单,一般不考虑抽样误差和可靠程度,它适用于对推断准确程度与可靠程度要求不高的情况。
区间估计就是根据样本指标、抽样误差和概率保证程度去推断总体参数的可能范围。在统计实践中,通常用一个区间及其出现的概率来估计总体参数,并以一定的概率保证总体参数包含在估计区间内,这就是参数的区间估计问题。区间估计是抽样估计的主要方法。 进行区间估计要完成两个方面的估计:其一,根据样本指标和抽样平均误差估计总体指标的可能范围;其二,估计推断总体指标真实值在这个范围的可靠程度。


32.抽样估计的优良标准

(1)无偏性:以样本指标估计总体指标时,要求样本指标的平均数等于被估计总体指标的平均数。

(2)一致性:用抽样指标估计总体指标,要求样本的单位数充分大,这样抽样指标也能更靠近总体指标。

(3)有效性有效性要求每个估计值与待估参数之间的偏差尽可能的小,用抽样指标来估计总体指标时,要求作为优良估计量的方差应该比其他估计量的方差小。


33.写出10种linux命令,写出其参数。

(1) LS命令
-作用:显示目录内容,类似DOS下的DIR
-格式:LS【options】【filename】
-常用参数:

-a:all,不隐藏任何以"."字符开始的文件
-l:使用较长的格式列出信息
-r:按照文件名的逆序打印输出
-F:加上文件类型的指示符
ls -lF | grep / 过滤
man ls 查询ls的帮助文件

(2) cat命令
-作用:显示文件内容,concatenate的缩写,类似dos的type命令。
-格式:cat【options】【fielname】
-常用参数:

-n:显示文件内容的行号。
-b:类似-n,但是不对空白行进行编号。
-s:当遇到有连续两行以上的空白行时,就代换为一行的空白行。

(3) mv命令
-作用:更改文件或者目录的名字。
-格式:mv[options]source destination
-常用参数:

-f:强制模式,覆盖文件不提示。
-i:交互模式,当要覆盖文件的时候给提示。

(4) rm命令
-作用:删除文件命令,类似dos的del命令
-格式:rm【options】filenames
-常用参数:

-f:强制模式,不给提示。
-r,-R:删除目录,recursive

(5) mkdir命令
-作用:创建目录,类似dos的md命令
-格式:mkdir【options】directory
-常用参数:

-p:创建目录和它的父目录。
-m:指定模式,类似chmod。

(6) more命令
-作用:分屏显示输出结果,同DOS下的more命令。
-格式:more【options】【filename】
-常用参数:

-p:通过清屏而不是滚动来显示信息
-+num:从第num行开始显示
-s:把连续的多行空白行压缩成一行

cat aa.txt | more 通过管道的作用连接两个命令

(7) grep命令
-作用:在文件中搜索特定的字符串。
Global Regular Expression Print
-格式:grep【options】PATTERN【filename】
-常用参数:

-i:不区分大小写
-n:显示序号
-v:显示不匹配的内容

-多条件查询

grep -E "exe|dll" aa.txt

(8) find命令
-作用:搜索指定目录下的文件
-格式:find【path】【options】【expression】
-常用参数:

-name:搜索指定文件名字的文件,支持通配符
-atime n:搜索过去n天之内访问的文件
-ctime n:搜索过去n天之内修改的文件
-group gname:搜索指定组属的文件

(9) file命令
-作用:判断文件的类型
-格式:file【options】filename
-常用参数:

-z:检测压缩过的文件类型

说明:
file命令可以检测某个文件是否是目录,shell脚本,英文文本,
二进制可执行文件,c语言源文件,文本文件,dos的可执行文件。

(10) chmod命令
-作用:改变文件存取权限。
-格式:chmod【options】 mode filename
-常用参数:

-R:对目录下的文件进行递归操作
+r:增加读权限
-W:删除写权限
-x:增加执行权限

(11) 压缩一个文件夹:

tar -czvf up.tar.gz /updates

up.tar.gz目标文件

/updates需要压缩的文件夹


34.因子分析

因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

隐性变量
因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量 (latent variable, latent factor)。比如,如果要测量学生的学习积极性(motivation),课堂中的积极参与,作业完成情况,以及课外阅读时间可以用来反应积极性。而学习成绩可以用期中,期末成绩来反应。在这里,学习积极性与学习成绩是无法直接用一个测度(比如一个问题) 测准,它们必须用一组测度方法来测量,然后把测量结果结合起来,才能更准确地把握。换句话说,这些变量无法直接测量。可以直接测量的可能只是它所反映的一个表征(manifest),或者是它的一部分。在这里,表征与部分是两个不同的概念。表征是由这个隐性变量直接决定的。隐性变量是因,而表征是果,比如学习积极性是课堂参与程度 (表征测度)的一个主要决定因素。
因子分析是社会研究的一种有力工具,但不能肯定地说一项研究中含有几个因子,当研究中选择的变量变化时,因子的数量也要变化。此外对每个因子实际含意的解释也不是绝对的。

得到因子
因子分析的方法有两类。一类是探索性因子分析法,另一类是验证性因子分析。探索性因子分析不事先假定因子与测度项之间的关系,而让数据“自己说话”。主成分分析和共因子分析是其中的典型方法。验证性因子分析假定因子与测度项的关系是部分知道的,即哪个测度项对应于哪个因子,虽然我们尚且不知道具体的系数。

验证因子
探索的因子分析有一些局限性。第一,它假定所有的因子(旋转后) 都会影响测度项。在实际研究中,我们往往会假定一个因子之间没有因果关系,所以可能不会影响另外一个因子的测度项。第二,探索性因子分析假定测度项残差之间是相互独立的。实际上,测度项的残差之间可以因为单一方法偏差、子因子等因素而相关。第三,探索性因子分析强制所有的因子为独立的。这虽然是求解因子个数时不得不采用的机宜之计,却与大部分的研究模型不符。最明显的是,自变量与应变量之间是应该相关的,而不是独立的。这些局限性就要求有一种更加灵活的建模方法,使研究者不但可以更细致地描述测度项与因子之间的关系,而且可以对这个关系直接进行测试。而在探索性因子分析中,一个被测试的模型(比如正交的因子) 往往不是研究者理论中的确切的模型。

因子应用
市场调研中,研究人员关心的是一些研究指标的集成或者组合,这些概念通常是通过等级评分问题来测量的,如利用李克特量表取得的变量。每一个指标的集合(或一组相关联的指标)就是一个因子,指标概念等级得分就是因子得分。

因子分析在市场调研中有着广泛的应用,主要包括:

(1)消费者习惯和态度研究(U&A)

(2) 品牌形象和特性研究

(3)服务质量调查

(4) 个性测试

(5)形象调查

(6) 市场划分识别

(7)顾客、产品和行为分类

在实际应用中,通过因子得分可以得出不同因子的重要性指标,而管理者则可根据这些指标的重要性来决定首先要解决的市场问题或产品问题。


35. 取模运算(mod) vs. 取余运算(rem)

取模运算(Modulo Operation)与取余运算(Complementation)两个概念有重叠的部分,但有不完全一致。主要的区别在于对负整数出发运算时操作不同。

取模主要是用于计算机术语中,而取余则更多是数学概念。

主要运用场景:


36. 简单相关系数

简单相关系数又称为皮尔逊相关系数(Pearson Correlation coefficient)或者“皮尔逊积矩相关系数(Pearson product-moment correlation coeeficient)”或者线性相关系数,是指两个定距变量之间联系的紧密程度。相关系数可以看做是两个随机变量中得到的样本集向量之间夹角的cosine函数。

样本的简单相关系数一般用r表示,是一种计算直线相关的方法。

通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系

按照大学的线性数学水平来理解,可以看做是两组数据的响亮夹角的余弦:

皮尔逊相关的约束条件:

1 )两个变量间有线性关系
2 )变量是连续变量
3 )变量均符合正态分布,且二元分布也符合正态分布
4 )两变量独立

37. 协方差(Covariance) COV

(摘自:https://blog.csdn.net/huangfei711/article/details/78456165


38. 偏相关系数 (Partial Correlation Coefficient)

在多要素所构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其他要素的影响视作常数(保持不变),即暂时不考虑其他要素的影响,单独研究两个要素之间的相互关系的密切程度,所得的数值结果为偏相关系数。

在多元回归分析中,在消除其他变量影响的条件下,所计算的某两个变量之间的相关系数。 在多元相关分析中,简单相关系数可能不能真实地反映出变量X和变量Y之间的相关性,因为变量之间的关系很复杂,它们可能受到不止一个变量的影响。这个时候相关系数是一个更好选择。

假设我们需要计算X和Y之间的相关性,Z代表其他所有的变量,X和Y的偏相关系数可以认为是X和Z线性回归得到的残差Rx与Y和Z线性回归得到的残差Ry之间的简单相关系数,即pearson相关系数。

偏相关系数的检验可以有两种方法。一种是t-test,另外一种fisher 转化法

在多元回归中,应注意简单相关系数只是两变量局部的相关性质,而并非整体的性质。在多元回归中并不看重简单相关系数,而是看重偏相关系数根据偏相关系数,可以判断自变量对因变量的影响程度,对于那些对因变量影响较小的自变量,则可以舍去不管。

相关分析通过计算两个变量之间的相关系数,分析变量间线性相关的程度,在多元相关分析中,由于受到其他变量的影响,皮尔森相关系数只能从表面上反映两个变量相关的性质,往往不能真实地反映变量之间的线性相关程度,甚至会给人造成相关的假象,因此,在某些场合,简单的皮尔森相关系数并不是刻画相关关系的本质统计量。

当其他变量被固定住,即将他们控制起来后,给定的任意两个变量之间的相关系数叫偏相关系数,偏相关系数才是真正反映两个变量相关关系的统计量。例如可以控制工龄的影响,来研究工资收入与受教育程度的相关关系。

偏相关系数的计算:

偏相关系数的假设检验:

(摘自:https://blog.csdn.net/zhaozhn5/article/details/78390971

R语言实现偏相关:

(摘自:https://www.jianshu.com/p/188adaadd799

看了一本多元统计书,上面讲在做因子分析前一定要计算变量之间偏相关系数:


39. 皮尔逊相关系数的计算过程

(摘自:https://blog.csdn.net/rwzhang/article/details/84995246


40. KMO检验

KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO统计量是取值在0和1之间。

当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。

作用:
比较变量间简单相关系数

应用场景:
多元统计的因子分析

上一篇下一篇

猜你喜欢

热点阅读