SQL基础操作
SQL,全称Structured Query Language,是一种关系数据库查询和编程语言。
本文是DataCamp《Intro to SQL for Data Science》课程的学习笔记。
1. 选择1列
# 从表格films中选择名为title的1列
SELECT title
FROM films;
2. 选择多列
# 从表格films中选择名为title、release_year和country的3列
SELECT title, release_year, country
FROM films;
3. COUNT、DISTINCT声明
COUNT(列名):对该列计数
DISTINCT 列名:排除该列重复值
4. 用WHERE进行过滤
# 表格films中2000年之前发行的电影有多少?
SELECT COUNT(*)
FROM films
WHERE release_year < 2000;
5. 用WHERE+AND进行过滤
# 表格films中2000年之前发行的法语电影的title和release_year是什么?
SELECT title, release_year
FROM films
WHERE release_year < 2000
AND language = 'French';
注:PostgreSQL中需使用单引号!
6. 用WHERE+AND+OR进行过滤
# 表格films中1994或1995年发行且评级为PG或R的电影有哪些?
SELECT title
FROM films
WHERE (release_year = 1994 OR release_year = 1995)
AND (certification = 'PG' OR certification = 'R');
7. 用WHERE+BETWEEN+AND进行过滤
# 表格films中发行于1990至2000年,预算在1亿美元以上的西班牙语电影有哪些?
SELECT title
FROM films
WHERE release_year
BETWEEN 1990 AND 2000
AND budget > 100000000
AND language = 'Spanish'
8. 用WHERE+IN进行过滤
# 表格films中评级为NC-17和R的电影有哪些?
SELECT title
FROM films
WHERE certification IN ('NC-17','R')
9. 用WHERE+IS NULL进行过滤
# 表格people中没有出生日期的有多少人?
SELECT COUNT(*)
FROM people
WHERE birthdate IS NULL;
10. 用WHERE+LIKE进行过滤
# 表格people中名字以B开头的人有哪些?
SELECT name
FROM people
WHERE name LIKE 'B%';
注:通配符%代表任意个字符,通配符_代表1个字符。
11. SUM、MAX、MIN函数
# 表格films中2000年之后发行的电影的票房总和是多少?
SELECT SUM(gross)
FROM films
WHERE release_year > 2000;
12. AS关键词
# 列举表格films中所有电影的title及利润,并把利润命名为net_profit
SELECT title, gross - budget AS net_profit
FROM films;
13. 关于小数点
# 列举表格films中所有电影的时长,并将单位由分钟换算为小时
SELECT AVG(duration) / 60.0 AS avg_duration_hours
FROM films;
注:要得到小数,需在计算中添加小数点。
14. 用ORDER BY排序
# 查询电影名称,并根据发行年进行降序排列
SELECT title
FROM films
ORDER BY release_year DESC;
15. 用多列进行排序
# 查询电影的发行年、时长和片名,先用发行年排序,再用时长排序
SELECT release_year, duration, title
FROM films
ORDER BY release_year, duration;
16. 用GROUP BY分组
# 查询reviews表格中的imdb评分及该评分对应的片数
SELECT imdb_score, COUNT(*)
FROM reviews
GROUP BY imdb_score;
17. HAVING从句
# 发行电影在10部以上的都是哪几年?
SELECT release_year
FROM films
GROUP BY release_year
HAVING COUNT(title) > 10;
注:COUNT不能和WHERE同时使用,因此换为HAVING。