JavaScript截取中英文混杂的字符串
2018-09-04 本文已影响37人
holy俊辉
JavaScript截取中英文混杂的字符串
问题描述
比如获取到微信的昵称之后,如果不能超过8个长度的汉字,超过之后使用"..."表示,但是昵称中可能也含有英文,但是单个英文字符占的长度并没有单个汉字的长度长,也就是英文占用一个字符,汉字是占用两个字符。但是JavaScript中的一些slice和subStr的方法,使用的都是字符串的长度,截取的并不标准,所以只能变通的使用其他方法
问题细化
如何区分中英文,
- 可使用Unicode编码进行区分,可以获得字符串的长度
//英文的Unicode编码区间,其他的都可以表示为汉字的Unicode
charCode >= 0 && charCode <= 128
- encodeURI() 函数可把字符串作为 URI 进行编码。返回值:URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。
说明:该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。
该方法的目的是对 URI 进行完整的编码,因此对以下在 URI 中具有特殊含义的 ASCII 标点符号,encodeURI() 函数是不会进行转义的:;/?:@&=+$,#
var a= '李'
undefined
var b=encodeURI(a)
undefined
b
"%E6%9D%8E"
b.length
9
var aa='f'
var bb = encodeURI(aa)
undefined
bb
"f"
bb.length
1
所以只有当中文字符的encodeURI的长度是大于4的。
代码为上
function getLength(str){
var strLength=0; // 记录str的总长度
var Len = str.length;
for(let i=0;i<Len;i++){
var charCode = str.charCodeAt(i);// 使用charCodeAt返回单个字符的Unicode编码
if(charCode>=0 && charCode<=128){
strLength++; //英文字符加1
}else {
strLength= strLength+2;//中文字符加2
}
}
return strLength;
}
function subStrNum(str,len) {
var strLen = str.length;
var strCut = '';
var strLength =0;
for(let i=0;i<strLen;i++){
var charStr = str.charAt(i); //使用charAt获取单个字符;
strLength++
if(encodeURI(charStr).length>4){ //使用encodeURI获取编码长度
strLength++;
}
strCut = strCut.concat(charStr);//单个字符进行合并
if(strLength >= len){
strCut = strCut.concat('...') //大于指定长度后合并'...'并返回此字符串
return strCut;
}
}
if(strLength<len){
return str
}
}
var a = "你dont 知道我的心"
getLength(a)
subStrNum(a,8)
console.log("getLength",getLength(a))
console.log("subStr",subStrNum(a,8))