数据蛙数据分析每周作业数据分析

《谁说菜鸟不会数据分析笔记》

2018-12-14  本文已影响19人  小T数据站
《谁说菜鸟不会数据分析》

此篇文章旨在将原来所记的纸质笔记誊写到网页上,便于留存与查看,并找到了原书的电子版,增加了一些插图以便于理解,电子版链接已置于文末,如觉得不太清晰的但又觉得很有料的可购买纸质书进行查阅,个人觉得这本书是份不错干货。


1.数据分析
(1)何谓数据分析:

(II) 管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等

(5)数据分析师的要求:

2.字段:是事物或现象的某种特征
记录:是事物或现象的具体表现,也称为数据或变量值

3.数据类型:(1)字符型数据 ;(2)数值型数据

4.数据表:(1)一维表 ;(2)二维表 ;(3)二维表转一维表 P54

5.导入数据:(1)导入文本数据 P58 ; (2)自动导入网站数据 P60

6.问卷录入要求:(1)单选题;(2)数值题;(3)多选题;(4)排序题;(5)开放性文字题 P64

7.“三心二意”处理数据:信心、细心、平常心、诚意、合意

8.数据清洗:
(1)重复数据的处理:
① 函数法(excel):counif(数据范围,计算条件)
② 高级筛选法(excel):(I)选择单元格区域;(II)数据 -- 排序和筛选 -- 高级 ;(III)选择“将筛选结果复制到其他位置”,勾选“选择不重复记录”;
③ 条件格式法(excel):开始 -- 条件格式 --突出显示单元格规则 -- 重复值
④ 数据透视法
⑤ 删除重复数据:
方法一:选择数据区域 -- 数据 -- 数据工作 -- 删除重复值
方法二:(I)counif法;(II)筛选 计数列 不等于1的数值
(2)缺失值的处理:
① 定位输入:【开始 -- 编辑 -- 定位条件】/ 【 Ctrl +G -- 定位条件 】 -- 空值 -- 确定
(I)处理缺失值的四种方法:
方法一:用一个样本统计量(比如平均数、中位数等)代替缺失值
方法二:用一个统计模型计算出来的值去代替缺失值
方法三:将有缺失值的记录删除,不过可能会导致样本量的减少
方法四:将有缺失值的记录保留,仅在相应的分析中做必要的删除
② "Ctrl + Enter"快捷键
③ 查找替换:
查找功能的快捷键 :Ctrl + F
替换功能的快捷键 :Ctrl +H
(3)检查数据逻辑错误
① 利用IF函数检查错误 :IF(logical_test,value_if_ture,value_if_false)
② 利用条件格式标记错误:选中数据区域 -- 开始 -- 条件格式 -- 突出显示单元格规则 -- 其它规则 -- 使用公式确定要设置格式的单元格 -- 在“为符合此公式的值设置格式”文本框中输入“公式” -- 格式
OR(logical1,logical2,...):至少一个参数为真,就返回TRUE
AND(logical1,logical2,...):所有参数全部为真,才返回TRUE

9.数据加工
(1)数据抽取:是指保留原数据表中某些字段的部分信息,组成一个新的字段 。
可以是:
① 截取某一字段的部分信息 -- 字段分列
② 将某几个字段合并为一个新字段 -- 字段合并
③ 将原数据表没有而其他数据表中有的字段有效的匹配过来 -- 字段匹配

(I)菜单法:选择要转换的数据区域,在“数据”选项卡的“数据工具”组中,单击“分列”按钮 -- “文本分列想到--第1步”中单击“分隔符号” -- “文本分列向导--第2步”中根据需要选择分隔符号
(II)函数法:
LEFT(text,num_chars):得到字符串左部指定个数的字符串
RUGHT(text,num_chars):得到字符串右部指定个数的字符

公式 结果
=A2&"迟到"&B2&"次" 小白迟到5次
=A3&"迟到比例为"&TEXT(B3,"0%") 小白迟到的比例为10%
=CONCATENATE(A2,"迟到",B2,"次") 小白迟到5次

函数TEXT()的作用是在使用连接运算符连接数字与文本时,控制数字的显示方式

VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)


Vlookup()函数

(2)数据计算
①简单计算:+,-,*,/
②函数计算:
(I)平均值与综合:AVERAGE(),SUM()
(II)日期函数:
DATE()
YEAR()
MONTH()
DAY()
(III)用函数DATEDIF()计算工龄
DATEDIF(start_date,end_date,unit) :返回两个日期之间的年/月/日间隔数
unit有Y/M/D/MD/YM/YD六种形式:
"Y"指时间段中的整年数,"M"为整月数,"D"为整天数
"MD"为天数的差,忽略日期中的月和年
"YM"为月数的差,忽略日期中 的日和年
"YD"为天数的差,忽略日期中的年
(3)数据分组:VLOOKUP(A2,$D$2:$E$12,2)


利用vlookup函数进行分组

(4)数据转换:
① 数据表的行列互换:
【选择性粘贴 -- 转置 】/ Ctrl + Alt + V

10.数据抽样
(1)普查
(2)抽样调查
RAND()函数:返回[0,1]的均匀分布随机数,而且每次计算工作表时都将 返回一个新的数值。
a,b代表两个数字,a<b,若要生成a与b之间的随机实数,可以使用公式:
=RAND()*(b-a)+a

11.数据分析方法
(1)对比分析法
①定义:所谓对比分析法,是将两个或两个以上的数据进行比较,分析他们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。
②特点:可以非常直观地看出事物某方面的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。
③分类:
(I)静态比较是在同一时间条件下对不同总体指标的比较,也叫横向比较,简称横比。
(II)动态比较是在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。
④实践运用
(I)与目标对比
(II)不同时期对比(同比,环比)
(III)同级部门 、单位、地区对比
(IV)行业内对比
(V)活动效果对比
⑤注意事项
(I)指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量
(II)对比的对象要有可比性
(III)对比的指标类型必须一致
(2)分组分析法
根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型 来进行研究,以揭示其内部的联系和规律性。
(3)结构分析法
结构分析法是指被分析总体内各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。
公式:结构相对指标(比例) = (总体某部分的数值 / 总体总量)* 100%
应用:市场占有率 = (某种商品销售量 / 该种商品市场销售总额)* 100%
(4)平均分析法
平均分析法就是运用计算平均数的方法来反映总体在一定时间、地点条件下某一特征的一般水平。
(5)交叉分析法
(6)综合评价分析法


综合分析法的5个步骤

①标准化数据方法:0-1标准化也叫离差标准化
公式:第N个经标准化处理的值=(第N个原始值-最小值)/ (最大值-最小值)
②权重确定方法
(7)杜邦分析法


杜邦分析体系示例
市场占有率杜邦分析体系

(8)漏斗图分析法


网站转化率(漏斗图)

(9)矩阵关联分析法
① 矩阵


矩阵示例

② 发展矩阵


发展矩阵示例

③ 改进难易矩阵


改进难易矩阵示例

④ 举一反三


某公司产品矩阵示例

(10)高级数据分析方法


高级数据分析方法索引表
上一篇下一篇

猜你喜欢

热点阅读