Data Scientist机器学习与数据挖掘数据分析

研究方法入门

2018-01-10  本文已影响23人  pangtong

从今天开始,开始学习优达学城【Udacity】数据分析师课程,并做相对应的笔记,以便更好的巩固知识,也便于以后的查找。


看完这个课程的第一课-----研究方法入门,我就做了一个决定: 继续学习下去。虽然我以前也上过很多的课,无论是学校的课程,还是网络课程,我从来没有过这样的感觉,自己愿意想着去继续学下去的,Udacity 的课程有一个很明显的特点就是: 他们把每一个知识点都 掰开揉碎 来讲,虽然每个视频只有一两分钟,但是视频里面的每一句话都是 干货 ,跟着这样的课堂学习知识,肯定没错。好了,废话不多说,下面开始记录 研究方法入门 的笔记。


Lauren's Intro Video

对于是否相信一个调查的结果的时候,我们先不要着急下结论,我们首先关注的应该是以下几个问题

  1. 调查了多少人?
  2. 调查了什么人?
  3. 调查怎么进行的?
    以上三个问题其实考察的是调查的样本容量样本的代表性合理的方法论, 考虑到以上三个要素才能以有效的调查为大前提,从而做出明智的选择。

抽象概念
定义1 所谓的抽象概念,就是很难用某一种特定的方法去测量(量化)的事物,因为它可以用很多不同的方法去描述和测量。
定义2 当我们可以可操作性定义一个事物的时候,这个事物就不再是抽象概念了。


数据
数据是统计学中最重要的知识,没有数据,我们什么也做不了。
变量
变量就是因人而异的的量。
常量
保持不变的量。
如果一项调查中的常量也多,我们会更加相信结果,除了变量和常量外,还有很多外界变量会影响我们的实验结果,很显然我们不能考虑到所有可能的外界变量,但是我们在实验和日常的数据分析中应该考虑到这些外界变量。


总体
一个组内的所有个体。
样本
一个组内的部分个体。
总体参数
描述总体特征的参数。
样本统计量
描述样本的特征的参数。
可以用样本统计量去估计总体参数,但是一般来说,它们两不会完全相同,两者之间的差别叫做抽样误差。
样本平均值可以小于,大于,等于总体平均值。
更大的样本可以更加准确的估算总体参数。
尽管样本数据不能准确的估算总体参数,但是我们可以通过它来了解总体参数所处的范围,只要样本是随机的和无偏差的即可。


可视化数据
数据有很多表现形式,原始数据,图表数据或者是总结整体数字的一些数据,我们应该选择恰当的表达形式从而从数据中得到可靠的结论。


相关并不代表因果。


调查问卷的优势

  1. 了解总体最简单的方法之一
  2. 相对而言成本比较低
  3. 可以远程控制
  4. 任何人都可以访问并分析调查结果(调查结果是长期有效的)
    调查问卷的不足
  5. 不真实的回复
  6. 带有偏见的回复
  7. 参与者没有理解提问者的意见(应答偏差)
  8. 参与者拒绝回答问题(无应答偏差)

实验
疗法 研究中研究人员处理事物的方式,研究人员特别感兴趣的是不同的处理方式产生的结果会有多大程度的不同。
观察性研究 研究人员观察一个事物但是不引入任何疗法的研究。
自变量 一个研究中研究者选择去操纵的变量,通常沿着图表的 X 轴绘制。
因变量 一个研究中研究者选择去测量的变量,通常沿着图表的 Y 轴绘制。
实验组 研究中接受不同水平的自变量处理的组,这些组用来测量实验的效果。
对照组 研究中不接受任何处理的组,当与实验组作比较的时候作为基线。
安慰剂 在对照组给参与者的一个东西,使得他们以为他们接受了疗法,实质上他们接受的是没有任何效果的疗法。
盲法 一种用来减少偏差的技术,分为双盲和单盲,双盲就是参与者和研究人员都不知道参与者接受的那种的处理。单盲是指只有参与者不知道自己接受的是那种处理。

上一篇 下一篇

猜你喜欢

热点阅读