你在意过每天输入的网址是否区分大小写么?
通常在浏览器地址栏输入的网址我们叫做URL(统一资源定位符:Universal Resource Locators)。先来看一个简单的URL:
http://www.example.com/here/is/path/file.html
这个URL可以简单的描述为:使用HTTP协议去www.example.com所在的机器上读取文件file.html这个文件。当然这是简单的去理解,更详细的解析可以看这里。从这个描述中可以看到,一个URL会被分成三部分,形如:[协议]://[域名]/[路径]。
- 协议:最常见的就是HTTP跟HTTPS,除了这个还有FTP文件传输协议等,这里是不区分大小写的
- 域名:域名(Domain Name)是需要通过域名系统(DNS)成功解析才能够正常访问到对应的IP地址,域名的命名规则之一就是:在域名中不区分大小写
- 路径:路径部分是否区分大小写,则要看该网址对应的后台是如何实现的
只有路径部分才是会区分大小写。每个网站都有后台的服务器,如果服务器只是单纯的采用路径映射到机器的文件系统中,那不同的操作系统平台是会有不同的区别的:
- Linux:常见的是采用第三/四代扩展文件系统(ext3/4),在该文件系统下是需要区分大小写的
- Mac OS X: 使用的HFS / HFS + / APFS(2016年发布的macOS Sierra开始)文件系统是不区分大小写
- Windows:微软公司开发的NTFS也是不区分大小写的
对于我们最经常接触到应用服务器来说,访问一个路径并不是指向文件系统中的某一个文件,而是作为一个字符串传输给应用服务器进行解析处理。
我这里用了Koa来做一个简单的测试,在URL的路径中输入大小写会出现什么情况。
const Koa = require('koa')
const app = new Koa()
const router = require('koa-router')()
router
.get('/', (ctx, next) => { ctx.body = `root path: ${ctx.req.url}` })
.get('/lowercase', (ctx, next) => { ctx.body = `lowercase path: ${ctx.req.url}` })
.get('/UPPERCASE', (ctx, next) => { ctx.body = `uppercase path: ${ctx.req.url}` })
app.use(router.routes())
app.listen(3000)
- http://localhost:3000/ -> root path: /
- http://localhost:3000/lowercase -> lowercase path: /lowercase
- http://localhost:3000/LOWERCASE -> lowercase path: /LOWERCASE
- http://localhost:3000/UPPERCASE -> uppercase path: /UPPERCASE
- http://localhost:3000/uppercase -> uppercase path: /uppercase
- http://localhost:3000/UpPerCase -> uppercase path: /UpPerCase
👆上面的六种情况可以我们可以看到,path并没有区分大小写。
当我在地址栏输入:https://www.zhihu.com/EXPLORE 并没有成功跳转,而是出现了一个404页面,这里又是什么原因呢?
我们还是以刚刚Koa的那个为例子来看。在例子中,使用了koa-router这个中间件来解析路由,koa-router里面有个match方法对path解析,而这个match方法主要是调用了path-to-regexp来生成进行解析,最终正则成功匹配对应的路由进行访问相对应的资源。
下面看看没有使用类似koa-router这样的中间件,会是怎样的效果。
app.use((ctx, next) => {
const path = ctx.req.url
if (path === '/lowercase') {
ctx.body = 'success to request lowercase resource'
} else if (path === '/UPPERCASE') {
ctx.body = 'SUCCESS TO REQUEST UPPERCASE RESOURCE'
} else {
ctx.body = `success to visit: ${path}`
}
})
- http://localhost:3000/ -> success to visit: /
- http://localhost:3000/lowercase -> success to request lowercase resource
- http://localhost:3000/LOWERCASE -> success to visit: /LOWERCASE
- http://localhost:3000/UPPERCASE -> SUCCESS TO REQUEST UPPERCASE RESOURCE
- http://localhost:3000/uppercase -> success to visit: /uppercase
- http://localhost:3000/UpPerCase -> success to visit: /UpPerCase
可以看到如果自己对path进行处理的话,是可以自己控制是否大小写敏感的。实际的运用中,为了易用性考虑,尽量满足不区分大小写,这应该也是router-koa这类中间件设计成case insensitive的考虑之一呱(猜的...hah)。知乎传说用的是Python的Tornado,而Tornado的路由采用正则直接匹配解析的,所以,访问https://www.zhihu.com/EXPLORE不成功应该是正则解析没有做到大小写不敏感吧(又是猜的...)
那在微博或者其他平台里面经常看得到这样的URL:http://t.cn/Ri98Hke 这是又是怎么一个情况呢?
这种一般叫做短链接,既然都叫短链接了,自然是希望越短越好啦,然而实际的操作中我们会发现,太短满足不了日益增长的业务需求(然而并没增长)吖,那太长了也不符合实际吖,我微博只给你发140个字符,你一个链接都40个字符了。所以,大小写敏感的话会使得尽可能短又尽可能多这么变态的需求。以微博七位短链路径为例,一起来看看(数字:10个,大写字母:26个,小写字母:26个)
- case insensitive: (10 + 26)^7 = 78,364,164,096
- case sensitive: (10 + 26 + 26)^7 = 3,521,614,606,208
所以短链还是大小写敏感方便一些。
其实在早两天遇到这个小问题之前我还是一直以为URL是严格区分大小写的。我个人觉得如果api或者网页提供给我们使用的时候,还是应该遵从api的命名规则去使用,尽管是大小写不敏感。
源码地址:CNBlackJ/caseSensitive
首发知乎专栏