iOS 使用 NSCharacterSet encode URL
写在前面
当使用 GET 方式进行网络通信时,参数会作为 URL 的一部分,此时需要对 URL 进行 Percent-Encoding
,即把一些字符转换成百分号形式,如空格用 %20
代替。
Encoding and Decoding
在 iOS 上,使用的处理方法,主要有以下2个:
Encoding
// 除保留字符外,其他的都变成 % 形式
- [NSString stringByAddingPercentEncodingWithAllowedCharacters:];
Decoding
// 移除 % 形式
- [NSString stringByRemovingPercentEncoding];
所以关键是保留哪些字符?
[NSURLCharacterSet URLHostAllowedCharacterSet]
先从 iOS SDK 中找起,在 NSURL.h 中找到了 URLHostAllowedCharacterSet
这个静态方法。
本以为使用官方方法处理后,就搞定了。但使用它处理后,数字也变成了百分号编码,这不符合当前项目的要求。
那么 URLHostAllowedCharacterSet
到底代表了那些字符?
仔细找过其头文件,并没有发现能知道包括字符的接口,甚至找过私有接口,也没有收获。
唯一可疑的方法 - (NSData *) bitmapRepresentation;
,但得到的是一个 NSData 对象,也没能从中得到想要的信息。
最终通过搜索,在这里找到了答案:
URLFragmentAllowedCharacterSet "#%<>[\]^`{|}
URLHostAllowedCharacterSet "#%/<>?@\^`{|}
URLPasswordAllowedCharacterSet "#%/:<>?@[\]^`{|}
URLPathAllowedCharacterSet "#%;<>?[\]^`{|}
URLQueryAllowedCharacterSet "#%<>[\]^`{|}
URLUserAllowedCharacterSet "#%/:<>?@[\]^`
但笔者还是好奇,这些字符是怎么找出来的?
RFC 3986
既然 iOS SDK 走不通,那直接找到标准保留字符,不就可以了吗?
RFC 3986:
reserved = gen-delims / sub-delims
gen-delims = ":" / "/" / "?" / "#" / "[" / "]" / "@"
sub-delims = "!" / "$" / "&" / "'" / "(" / ")"
/ "*" / "+" / "," / ";" / "="
即 :/?#[]@!$&'()*+,;=
但使用这些字符后,仍然不能正常和服务端通信。
最后,请教了服务端同事,到底应该以哪些字符为标准。
JavaScript encodeURI()
因为服务端使用了 JavaScript 的解码方法,所以统一标准,也使用 js 的编码方式,即 encodeURI()
。
从文档中可以找到:
该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。
该方法的目的是对 URI 进行完整的编码,因此对以下在 URI 中具有特殊含义的 ASCII 标点符号,encodeURI() 函数是不会进行转义的:;/?:@&=+$,#
整理后即保留 -_.!~*;/?:@&=+$,#
+ 数字 + 字母。
翻译成对应 Objc 代码:
NSMutableCharacterSet *lastSet = [[NSMutableCharacterSet alloc] init];
[lastSet formUnionWithCharacterSet:[NSCharacterSet characterSetWithCharactersInString:@"-_.!~*;/?:@&=+$,#"]];
[lastSet formUnionWithCharacterSet:[NSCharacterSet letterCharacterSet]];
[lastSet formUnionWithCharacterSet:[NSCharacterSet alphanumericCharacterSet]];
return [self stringByAddingPercentEncodingWithAllowedCharacters:lastSet];
至此,解决问题。