大数据100天自学大数据大数据,机器学习,人工智能

SQL自学常见6个易错难点解析

2020-04-16  本文已影响0人  金哥数据分析

有没有小伙伴跟我一样在自学SQL,自学数据分析的,+v: 35816146 一起学
我自学SQL在:http://xuesql.cn

6个易错难点(节约大家的时间写在最前面)
开始

我用到自学SQL这个网站,我会把这几个问题分别解析一下,截图用到(http://xuesql.cn

自学SQL
接下来

关于 year % 2 = 0 这类奇怪算式

先看一个简单的语句, select * from movies where year = 1998

image.png
注意我划线的地方,year=1998 表示用等号来判断,再看上图的结果,只筛选出1998这一条数据对吧。
现在,改成 ,select * from movies where year % 2 = 0
image.png
一样要注意我划线的地方,观察数据,可以发现year都是偶数吧。
year % 2 = 0 不是year = 0,而是 year 除以2的余数为0 (也就是偶数)

left joinright join左右连接的区别

很多人会问左连接,右连接到底有啥区别,傻傻搞不清,对吧。
很大一个原因,因为实际数据字段很多,你被搞晕了而已。
我们从最简单的两个表开始,就很好懂
表a和表b,一定记住他们的数据


image.png

问: a join b on a.ID = b.ID结果是什么?
先不说左右,就说join。(不理解连接无法理解左右)

结果是这样

一定要注意标红的1,3两个数据对吧,join是啥意思?a和b都有ID请留下,所有字段合到一起。(那么2,4,5,7哪去了?)
join的意思就是只要你中有我,我中有你的1,3;还不懂,看看下面


image.png
红色的是不是你中有我,我中有你。(ID的交集)

所以joinleft joinright join,第一步是ID的选取啊,不了解这个怎么可能了解接下来的。
彻底明白了join, 我们再说说 left join
a lelt join b 注意,这里的left啥意思?以left为主,谁在left呢,a在left。
那以left为主又是啥意思?
还记得a里面的ID 2和4吗?

image.png

直接看结果,以left为主,就是left表的都留下(留下了2,4)
a lelt join b a在left,就留下a的所有ID

image.png

所以!left join 是解决ID2,4无法在b中找到的问题(想想会不会有这样的情况)
a right join b 什么意思?以right为主,谁在right,b在right
所以留下哪些ID?(1,3,5,7)

如何真的理解了,则可以回答下面的问题:
a left join bb right join a一样不一样?
如果a,b都只有ID 1,3,请问a left join ba right join b 一样不一样?

group by为什么要加 sum

看一下例子数据

image.png
SELECT * FROM movies group by Director;
想想看,按Director分组之后,有几条数据?
一下是不是想不出来?可以拆解为2步:

第一步:把所有在一组的圈出来


第一步

没毛病吧,咱们手工也得这么做啊。

第二步:每一组只能留下1条
问题来了,超过1条的 BradJohn留下哪条呢?
下面是结果:SELECT * FROM movies group by Director;

第二步

仔细对比第一,第二步哦,发现留下是最后1条。

现在理解Group By的过程了吗?不理解这个过程怎么可能理解sum
加上count试下
select *,count(*) from movies group by Director;
问:第一步变吗?

第一步

第二步,count(*)怎么作用?

第二步
看到count 25了吗,我已经红线标出了。
count什么意思?把组内的(注意看第一步)数一数,有几个就输出几。

不难理解吧(只是计数)
再加个sum
select ,count(),sum(Length_minutes) from movies group by Director;
第一步会变吗?不会吧
第二步,sum(Length_minutes)什么意思?肯定是组内的计算对吧
算什么?算 Length_minutes的和(组内每一个加起来就是sum)

第二步
手工算一算,对吗?

a = (select x form table) 括号里又有个SQL

怎么select里还套一个select,一下搞晕了对吧。

比如:找电影产量最多的导演,最后一部电影信息

image.png

晕不晕?
直接人工找出 产量最多 的导演名字不就行了吗?

第一个
这个不晕了吧。那为什么还要嵌套? 第二个

第二个和第一个结果是不是一样,(select 'John Lasseter')结果不就是 John Lasseter
所以,select的结果可以出现在另一个select的条件里(子查询)

这个不难理解,(select 'John Lasseter')实在太简单了!
现在看第三个:

第三个

一定要注意我画红线的地方,第二和第三的结果一摸一样对吗?只是语句长短不一样嘛。
现在可以看懂了吗?
问题是:为什么要写这么复杂?
如果表里新加了数据,产量最多的导演不是John Lasseter了? 你要重新数?
还是用这条复杂一点的SQL?(子查询只是为了解决动态数据问题)

求每一组的第一名

Group By对吧,问题是怎么留下第一名呢?
还记得之前说的Group By默认留下谁吗?(最后一条)
所以:怎么把第一名放到最后一条?

image.png

先排序,保证第一名在最后,然后再分组。

我把 like 换成 = 为什么不行

有人说:select * from movies where title like 'Car %' 有数据。
怎么换成,select * from movies where title = 'Car %'就没数据了?

问:假设有一个title内容是 “Car %”,注意哦,它内容里就有%,请问 = 'Car %'
可以吗?用 like 'Car %' 呢?
为什么这个又可以了呢?

= 'Car %' 表示完全相同,因为内容里有 %,肯定相同啊
like 'Car %' 表示Car后面跟任何东西都可以 %当然可以啊

但是,如果Car 后面不是% 而是其他 xxx,like 和 = 效果还一样吗?

最后:
end:以上SQL可以在 http://xuesql.cn 执行看效果

上一篇 下一篇

猜你喜欢

热点阅读