SQL自学常见6个易错难点解析

2020-04-16 本文已影响0人金哥数据分析

有没有小伙伴跟我一样在自学SQL，自学数据分析的，+v: 35816146 一起学
我自学SQL在：http://xuesql.cn

6个易错难点(节约大家的时间写在最前面)

关于 year % 2 = 0 这类奇怪算式，有没有？
left join 和 right join,左连接右连接左连接右连接，绕晕有吗？
group by为什么要加 sum 有没有？
a = (select x form table) 括号里又有个SQL什么意思？
求每一组的第一名，难倒了有吗？
我把 like 换成 = 为什么不行？有吗？

开始

我用到自学SQL这个网站，我会把这几个问题分别解析一下，截图用到（http://xuesql.cn）

自学SQL

接下来

关于 year % 2 = 0 这类奇怪算式

先看一个简单的语句, select * from movies where year = 1998

image.png
注意我划线的地方，year=1998 表示用等号来判断，再看上图的结果，只筛选出1998这一条数据对吧。
现在，改成，select * from movies where year % 2 = 0

image.png
一样要注意我划线的地方，观察数据，可以发现year都是偶数吧。
year % 2 = 0 不是year = 0，而是 year 除以2的余数为0 （也就是偶数）

left join 和 right join左右连接的区别

很多人会问左连接，右连接到底有啥区别，傻傻搞不清，对吧。
很大一个原因，因为实际数据字段很多，你被搞晕了而已。
我们从最简单的两个表开始，就很好懂
表a和表b，一定记住他们的数据

image.png

问： a join b on a.ID = b.ID结果是什么?
先不说左右，就说join。（不理解连接无法理解左右）

结果是这样

一定要注意标红的1，3两个数据对吧，join是啥意思？a和b都有ID请留下，所有字段合到一起。（那么2，4，5，7哪去了？）
join的意思就是只要你中有我，我中有你的1，3；还不懂，看看下面

image.png

红色的是不是你中有我，我中有你。（ID的交集）

所以join，left join，right join，第一步是ID的选取啊，不了解这个怎么可能了解接下来的。
彻底明白了join, 我们再说说 left join
a lelt join b 注意，这里的left啥意思？以left为主，谁在left呢，a在left。
那以left为主又是啥意思？
还记得a里面的ID 2和4吗？

image.png

直接看结果，以left为主，就是left表的都留下（留下了2，4）
a lelt join b a在left，就留下a的所有ID

image.png

所以！left join 是解决ID2，4无法在b中找到的问题（想想会不会有这样的情况）
a right join b 什么意思？以right为主，谁在right，b在right
所以留下哪些ID？（1，3，5，7）

如何真的理解了，则可以回答下面的问题：
a left join b 和 b right join a一样不一样？
如果a，b都只有ID 1，3，请问a left join b 和 a right join b 一样不一样？

group by为什么要加 sum

看一下例子数据

image.png
SELECT * FROM movies group by Director;
想想看，按Director分组之后，有几条数据？
一下是不是想不出来？可以拆解为2步：

第一步：把所有在一组的圈出来

第一步

没毛病吧，咱们手工也得这么做啊。

第二步：每一组只能留下1条
问题来了，超过1条的 Brad 和 John留下哪条呢？
下面是结果：SELECT * FROM movies group by Director;

第二步

仔细对比第一，第二步哦，发现留下是最后1条。

现在理解Group By的过程了吗？不理解这个过程怎么可能理解sum呢
加上count试下
select *,count(*) from movies group by Director;
问：第一步变吗？

第一步

第二步，count(*)怎么作用？

第二步
看到count 2 和5了吗，我已经红线标出了。
count什么意思？把组内的（注意看第一步）数一数，有几个就输出几。

不难理解吧（只是计数）
再加个sum
select ,count(),sum(Length_minutes) from movies group by Director;
第一步会变吗？不会吧
第二步，sum(Length_minutes)什么意思？肯定是组内的计算对吧
算什么？算 Length_minutes的和（组内每一个加起来就是sum)