数据蛙数据分析每周作业

数据分析之SQL检索

2018-12-23  本文已影响20人  只有三挡的风扇

其实数据分析是一个相对于冗杂的工作,我所理解的分析步骤如下(仅个人理解):

1.数据获取(python爬虫等)
2.从数据库中获取数据(sql)
3.数据预处理(规范数据)
4.数据分析与建模以及可视化
5.数据分析报告

在实际的工作中,只要公司使用数据库,那我们在进行数据分析工作之时,有很大概率要用到sql进行数据的提取(本文主要围绕select语句展开),以mysql为例,下面我们便正式进入主题。

数据来源秦路老师教学:https://pan.baidu.com/s/1zBobf63JTbhNKxZ9P-Ju1Q

0.通用基本格式

select 列名1,列名2,列名3 from 表名
where 条件 #过滤条件
group by 列名 #分组
order by 列名 #排序,一般以数字列排序

1.检索数据

select * from DataAnalyst.csv
# *代表通配符,此处表所有数据
#检索一列数据
select city from DataAnalyst.csv
#检索多列数据(列名以逗号隔开)
select city,positionID,industryFiled from  DataAnalyst.csv

2.使用where字句进行过滤

select * from DataAnalyst.csv
where city = '上海'
#只看上海地区的情况
select * from DataAnalyst.csv
where education = '本科'
#找出招本科的公司的信息

3.and和or(一般与过滤字句where连用)


select * from DataAnalyst.csv
where city = '上海' and companySize >=1000
#选出在上海且人数大于1000的公司
select * from DataAnalyst.csv
where city = '上海' or  workyear like '应届毕业生' 
#这里查找的是公司位于上海并且招应届毕业生的所有公司信息

4.分组(group by)

select city from DataAnalyst.csv

group by city

#按城市进行分组

5.使用having对分组之后的数据进行过滤

select city,count(positionID) from DataAnalyst.csv
group by city 
having count(positinonID)>= 200
#此处按照城市分组,查找出职位大于等于200的所有城市
#having仅仅对排序之后的数据进行过滤与where有所不同

6.使用order by 进行排序

select * from DataAnalyst.csv
order by  city
#按城市进行排序

7.模糊查找(like,%)

select * from DataAnalyst.csv
where industryFiled like '%数据分析%'
#包含数据分析
select * from DataAnalyst.csv
where industryFiled like '%数据分析'
#以数据分析结尾
select * from DataAnalyst.csv
where industryFiled like '数据分析%'
#以数据分析开头

8.函数的使用

select city,count(positionID) from DataAnalyst.csv
group by city
#还有很多函数,本次使用了(count())本条查询不同城市职位的个数

9.唯一值(distinct)

select city,count(dinstinct positionID) from DataAnalyst.csv
group by city 
#查询不同城市唯一职位的数量

实战阶段(以数据集为例)

1.检索所在地为杭州或者上海的所有公司信息

select * from DataAnalyst.csv
where city = '杭州' or city = '上海'

2.检索出数据集中职位名称包含数据分析所有公司信息

select * from DataAnalyst.csv
where positionName like '数据分析'

3.检索出不同城市职位的数量

select city,count(positionID) from DataAnalyst.csv
group by city

4.暂时先到此处,稍后再补。

上一篇 下一篇

猜你喜欢

热点阅读