ES6-02 字符串与正则表达式

2018-06-21  本文已影响0人  小线亮亮

ES6学习笔记-字符串与正则表达式

在ES6之前,JS的字符串以16位字符编码(UCS-2)为基础。

每个 16 位序列都是一个码元( code unit ),用于表示一个字符。

字符串所有的属性与方法都是基于 16 位的码元。

原本16 位足以容纳任何字符,由于Unicode 引入了扩展字符集,那么就不够用了。

UTF-16 是变长的字符编码方式,有 16 位与 32 位两种情况。 JS 原先使用的则是固定 16 位(双字节)的字符编码方式,即 UCS-2 。

Unicode目标是给世界上所有的字符提供全局唯一标识符,而 16 位的字符长度限制已不能满足这种需求。
这些全球唯一标识符被称为代码点( code points ),是从 0 开始的简单数字。
代码点是如你想象的字符代码那样,用一个数字来代表一个字符
字符编码要求将代码点转换为内部一致的码元,而对于 UTF-16 来说,代码点可以由多个码元组成

在 UTF-16 中的第一个 2^16 代码点表示单个 16 位码元,这个范围被称为多语言基本平面(
Basic Multilingual Plane , BMP )。
任何超出该范围的代码点都不能用单个 16 位码元表示,而是会落在扩展平面( supplementary planes )内。
UTF-16 引入了代理对(surrogate pairs )来解决这个问题,允许使用两个 16 位码元来表示单个代码点。
这意味着字符串内的任意单个字符都可以用一个码元(共 16 位)或两个码元(共 32 位)来表示,
前者对应基本平面字符,而后者对应扩展平面字符。

在ES5中,所有字符串操作都基于16位码元,那么在处理包含代理对的 UTF-16 字符时会出现预期外的结果。

var text = "𠮷" ;// 使用了代理对,“𠮷”当作两个16位字符对待。
console.log(text.length); // 2,而不是1
console.log(/^.$/.test(text)); // false,匹配失败,这里有两个字符。 
console.log(text.charAt(0)); // "" ,16位代码点都不是可打印字符。
console.log(text.charAt(1)); // ""
console.log(text.charCodeAt(0)); // 55362 // 返回每个码元的16位数字。
console.log(text.charCodeAt(1)); // 57271

ES6为全面支持 UTF-16 而新增的方法,可以在给定字符串中按位置提取 Unicode 代码点。
该方法接受的是码元位置而非字符位置,并返回一个整数值。

var text = "𠮷a";
console.log(text.charCodeAt(0)); // 55362
console.log(text.charCodeAt(1)); // 57271
console.log(text.charCodeAt(2)); // 97
console.log(text.codePointAt(0)); // 134071
console.log(text.codePointAt(1)); // 57271
console.log(text.codePointAt(2)); // 97

操作对象是 BMP 字符,则codePointAt()与charCodeAt()返回值相同。
text 字符串的第一个字符不是 BMP 字符,因此它占用了两个码元,字符串的length 属性是 3 而不是 2 。
charCodeAt() 方法只返回了位置 0 的第一个码元;而codePointAt() 返回的是完整的代码点,即使它占用了多个码元。

判断字符包含了一个还是两个码元

function is32Bit(c) {
    return c.codePointAt(0) > 0xFFFF;
}
console.log(is32Bit("")); // true
console.log(is32Bit("a")); // false

16 位字符的上边界用十六进制表示就是 FFFF ,因此任何大于该数字的代码点必须用两个码元(共 32 位)来表示。

codePointAt()来提取字符串内中某个字符的代码点,String.fromCodePoint()用给定的代码点来产生包含单个字符的字符串。

console.log(String.fromCodePoint(134071)); // "𠮷"

可以将 String.fromCodePoint() 视为 String.fromCharCode() 的完善版本。两者处理 BMP 字
符时会返回相同结果,只有处理 BMP 范围之外的字符时才会有差异。

ES6 给字符串提供了 normalize() 方法,以支持 Unicode 标准形式。

Unicode 标准形式:
Normalization Form Canonical Composition ( "NFC" ),这是默认值;
Normalization Form Canonical Decomposition ( "NFD" );
Normalization Form Compatibility Composition ( "NFKC" );
Normalization Form Compatibility Decomposition ( "NFKD" )。

当比较字符串时,它们必须被标准化为同一种形式。

// 将values数组中的字符串转换为一种标准形式,以便让转换后的数组可以被正确排序。
var normalized = values.map(function (text) {
    return text.normalize();
});
normalized.sort(function (first, second) {
    if (first < second) {
        return -1;
    } else if (first === second) {
        return 0;
    } else {
        return 1;
    }
});
// 比较过程中调用 normalize() 来对原始数组进行排序。    
values.sort(function (first, second) {
    var firstNormalized = first.normalize(),
        secondNormalized = second.normalize();
    if (firstNormalized < secondNormalized) {
        return -1;
    } else if (firstNormalized === secondNormalized) {
        return 0;
    } else {
        return 1;
    }
});

first 与 second 再一次使用同一方式被标准化了。

正则表达式假定单个字符使用一个 16 位的码元来表示。
为了解决这个问题,ES6为正则表达式定义了用于处理Unicode的u标志。

u 标志如何运作:

当一个正则表达式设置了u标志时,它的工作模式将切换到针对字符,而不是针对码元。
这意味着正则表达式将不会被字符串中的代理对所混淆,而是会如预期那样工作。

var text = "𠮷";
console.log(text.length); // 2
console.log(/^.$/.test(text)); // false,不使用 u 标志时,该正则表达式只匹配码元。
console.log(/^.$/u.test(text)); // true,启用 u 标志后,正则表达式就会比较字符而不是码元。

计算代码点数量

ES6 并没有添加方法用于判断一个字符串包含多少个代码点。

可借助 u 标志,使用正则表达式来进行计算。

function codePointLength(text) {
    var result = text.match(/[\s\S]/gu);
    return result ? result.length : 0;
}
console.log(codePointLength("abc")); // 3
console.log(codePointLength("𠮷bc")); // 3
/*此例调用了 match() 方法来检查 text 中的空白字符与非空白字符(使用 [\s\S] 以确保
该模式能匹配换行符),所用的正则表达式启用了全局与 Unicode 特性。在匹配至少成功一
次的情况下, result 变量会是包含匹配结果的数组,因此该数组的长度就是字符串中代码
点的数量。在 Unicode 中,字符串 "abc" 与 "bc" 同样包含三个字符,所以数组长度为 3
。
虽然这种方法可用,但它并不快,尤其在操作长字符串时。你也可以使用字符串的迭代
器来达到相同目的。一般来说,只要有可能就应尽量减少对代码点数量的计算。
*/

判断是否支持 u 标志

使用一个函数来判断是否支持 u 标志是最安全的方式

function hasRegExpU() {
    try {
        var pattern = new RegExp(".", "u");
        return true;
    } catch (ex) {
        return false;
    }
}
/*
若你的代码仍然需要在旧版 JS 引擎中工作,那么在使用 u 标志时应当始终使用
RegExp 构造器。这会防止语法错误,并允许你有选择地检测并使用 u 标志,而不会导
致执行被中断。
*/

includes()方法,在给定文本存在于字符串中的任意位置时会返回true,否则返回false;
startsWith()方法,在给定文本出现在字符串起始处时返回true,否则返回false;
endsWith()方法,在给定文本出现在字符串结尾处时返回true ,否则返回false。

每个方法都接受两个参数:需要搜索的文本,以及可选的搜索起始位置索引。
当提供了第二个参数时, includes() 与 startsWith() 方法会从该索引位置开始尝试匹配;
而endsWith() 方法会将字符串长度减去该参数,以此为起点开始尝试匹配。
当第二个参数未提供时, includes() 与 startsWith() 方法会从字符串起始处开始查找,
而 endsWith() 方法则从尾部开始。实际上,第二个参数减少了搜索字符串的次数。

var msg = "Hello world!";
console.log(msg.startsWith("Hello")); // true
console.log(msg.endsWith("!")); // true
console.log(msg.includes("o")); // true
console.log(msg.startsWith("o")); // false
console.log(msg.endsWith("world!")); // true
console.log(msg.includes("x")); // false
console.log(msg.startsWith("o", 4)); // true
console.log(msg.endsWith("o", 8)); // true
console.log(msg.includes("o", 8)); // false

若要找到它们在另一个字符串中的确切位置,则需要使用 indexOf() 和 lastIndexOf()。

如果向 startsWith() 、 endsWith() 或 includes() 方法传入了正则表达式而不是字符
串,会抛出错误。这与 indexOf() 以及 lastIndexOf() 方法的表现形成了反差,它们会
将正则表达式转换为字符串并搜索它。

repeat() 方法,接受一个参数作为字符串的重复次数,返回一个将初始字符串重复指定次数的新字符串。

console.log("x".repeat(3)); // "xxx"
console.log("hello".repeat(2)); // "hellohello"
console.log("abc".repeat(4)); // "abcabcabcabc"

在Firefox实现了对正则表达式y标志的专有扩展之后,ES6 将该实现标准化。
y标志影响正则表达式搜索时的粘连( sticky )属性,它表示从正则表达式的 lastIndex 属性值的
位置开始检索字符串中的匹配字符。如果在该位置没有匹配成功,那么正则表达式将停止检
索。

var text = "hello1 hello2 hello3",
    pattern = /hello\d\s?/,
    result = pattern.exec(text),
    globalPattern = /hello\d\s?/g,
    globalResult = globalPattern.exec(text),
    stickyPattern = /hello\d\s?/y,
    stickyResult = stickyPattern.exec(text);
console.log(result[0]); // "hello1 "
console.log(globalResult[0]); // "hello1 "
console.log(stickyResult[0]); // "hello1 "

// 表示三个模式的正则表达式都应当从第二个字符开始尝试匹配。
pattern.lastIndex = 1;
globalPattern.lastIndex = 1;
stickyPattern.lastIndex = 1;

result = pattern.exec(text);//不使用任何标志的正则表达式完全忽略了对于lastIndex的更改
globalResult = globalPattern.exec(text);//而使用g标志的正则表达式继续匹配了 "hello2 "
stickyResult = stickyPattern.exec(text);//粘连的正则表达式则在第二个字符处没有匹配成功
console.log(result[0]); // "hello1 "
console.log(globalResult[0]); // "hello2 "
console.log(stickyResult[0]); // Error! stickyResult is null

一旦匹配操作成功,粘连标志就会将匹配结果之后的那个字符的索引值保存在 lastIndex
中;若匹配未成功,那么 lastIndex 的值将重置为 0 。全局标志的行为与其相同。

var text = "hello1 hello2 hello3",
    pattern = /hello\d\s?/,
    result = pattern.exec(text),
    globalPattern = /hello\d\s?/g,
    globalResult = globalPattern.exec(text),
    stickyPattern = /hello\d\s?/y,
    stickyResult = stickyPattern.exec(text);
console.log(result[0]); // "hello1 "
console.log(globalResult[0]); // "hello1 "
console.log(stickyResult[0]); // "hello1 "
console.log(pattern.lastIndex); // 0
console.log(globalPattern.lastIndex); // 7
console.log(stickyPattern.lastIndex); // 7
result = pattern.exec(text);
globalResult = globalPattern.exec(text);
stickyResult = stickyPattern.exec(text);
console.log(result[0]); // "hello1 "
console.log(globalResult[0]); // "hello2 "
console.log(stickyResult[0]); // "hello2 "
console.log(pattern.lastIndex); // 0
console.log(globalPattern.lastIndex); // 14
console.log(stickyPattern.lastIndex); // 14

对于 stickyPattern 和 globalPattern 模式变量来说,第一次调用之后 lastIndex 的值均
被更改为 7 ,而第二次则均被改为 14。

  1. 只有调用正则表达式对象上的方法(例如 exec() 与 test() 方法), lastIndex 属性
    才会生效。而将正则表达式作为参数传递给字符串上的方法(例如 match() ),并不会
    体现粘连特性。
  2. 当使用 ^ 字符来匹配字符串的起始处时,粘连的正则表达式只会匹配字符串的起始处
    (或者在多行模式下匹配行首)。当 lastIndex 为 0 时, ^ 不会让粘连的正则表达式
    与非粘连的有任何区别;而当 lastIndex 在单行模式下不对应整个字符串起始处,或者
    当它在多行模式下不对应行首时,粘连的正则表达式永远不会匹配成功。

根据sticky属性来检测 y 标志是否存在

var pattern = /hello\d/y;
console.log(pattern.sticky);
// sticky属性由y标志存在与否决定,是只读的,它的值不能在代码中修改。

检测JS 引擎是否支持y标志

function hasRegExpY() {
    try {
        var pattern = new RegExp(".", "y");
        return true;
    } catch (ex) {
        return false;
    }
}
/*
在旧版JS引擎中运行的代码中使用y标志,请确保使用 RegExp 构造器来定义正则表达式,以避免语法错误。
*/

ES5中可以将正则表达式传递给RegExp构造器来复制它

var re1 = /ab/i,
re2 = new RegExp(re1);
// re2 变量只是 re1 的一个副本
// 若向RegExp构造器传递了第二个参数,即正则表达式的标志,那么该代码就无法工作

ES6允许使用第二个参数,并且让它覆盖第一个参数中的标志

var re1 = /ab/i,
// ES5 中会抛出错误, ES6 中可用
re2 = new RegExp(re1, "g");
console.log(re1.toString()); // "/ab/i"
console.log(re2.toString()); // "/ab/g"
console.log(re1.test("ab")); // true
console.log(re2.test("ab")); // true
console.log(re1.test("AB")); // true
console.log(re2.test("AB")); // false

es6新增了与标志关联的属性。

在ES5中,使用source属性来获取正则表达式的文本。
若想获取标志字符串,必须解析 toString() 方法的输出。

function getFlags(re) {
    var text = re.toString();
    return text.substring(text.lastIndexOf("/") + 1, text.length);
}
// toString() 的输出为 "/ab/g"
var re = /ab/g;
console.log(getFlags(re)); // "g"
// 将正则表达式转换为一个字符串,并返回了最后一个 / 之后的字符,即标志。

ES6 新增了flags 属性用于配合 source 属性,让标志的获取变得更容易。
这两个属性均为只有 getter 的原型访问器属性,因此都是只读的。
flags 属性使得检查正则表达式更容易,有助于调试与继承。

var re = /ab/g;
console.log(re.source); // "ab"
console.log(re.flags); // "g"

使用 source 和 flags 允许你直接提取正则表达式的组成部分,而不必将正则表达式转换为字符串。

ES6的模板字面量( template literal )提供了创建领域专用语言( domain-specific language ,
DSL )的语法,与 ES5 及更早版本的解决方案相比,处理内容可以更安全。
本方案通过语法糖扩展了 ECMAScript 的语法,允许语言库提供 DSL 以便制作、查询并
操纵来自于其它语言的内容,并且对注入攻击( 如 XSS 、 SQL 注入,等等 )能够免疫
或具有抗性。
模板字面量是 ES6 针对 JS 直到 ES5 依然完全缺失的如下功能的回应:
多行字符串:针对多行字符串的形式概念;
基本的字符串格式化:将字符串部分替换为已存在的变量值的能力;
HTML 转义:能转换字符串以便将其安全插入到 HTML 中的能力。
模板字面量以一种新的方式解决了这些问题,而并未给 JS 已有的字符串添加额外功能。

基本语法

模板字面量的最简单语法,是使用反引号( ` )来包裹普通字符串,而不是用双引号或单引号。

let message = `Hello world!`;
console.log(message); // "Hello world!"
console.log(typeof message); // "string"
console.log(message.length); // 12
// 在字符串中包含反引号,只需使用反斜杠( \ )转义即可。
let message = `\`Hello\` world!`;
console.log(message); // "`Hello` world!"
console.log(typeof message); // "string"
console.log(message.length); // 14

在模板字面量中无需对双引号或单引号进行转义

多行字符串

使用双引号或单引号时,整个字符串只能放在单独一行。

ES6 之前创建多行字符串的尝试,一般都基于数组或字符串的拼接。

var message = [
    "Multiline ",
    "string"
].join("\n");
let message = "Multiline \n" +
    "string";

多行字符串的简单解决方法,ES6 的模板字面量使多行字符串更易创建,因为它不需要特殊的语法。只需在想要的位置包含换行即可,而且它会显示在结果中。

let message = `Multiline
string`;
console.log(message); // "Multiline
// string"
console.log(message.length); // 16
// 反引号之内的所有空白符都是字符串的一部分,因此需要留意缩进。
let html = `
<div>
<h1>Title</h1>
</div>`.trim();
//如果你喜欢的话,也可以在模板字面量中使用 \n 来指示换行的插入位置:
let message = `Multiline\nstring`;
console.log(message); // "Multiline
// string"
console.log(message.length); // 16

模板字面量与普通 JS 字符串的区别在于模板字面量的“替换位”。

替换位允许你将任何有效的 JS 表达式嵌入到模板字面量中,并将其结果输出为字符串的一部分。

替换位由起始的 ${ 与结束的 } 来界定,之间允许放入任意的 JS 表达式。

let name = "Nicholas",
message = `Hello, ${name}.`;
console.log(message); // "Hello, Nicholas."
// 替换位 ${name} 会访问本地变量 name ,并将其值插入到 message 字符串中。 
// message 变量会立即保留该替换位的结果。

模板字面量能访问到作用域中任意的可访问变量。试图使用未定义的变量会抛出错误,无论是严格模式还是非严格模式。

既然替换位是 JS 表达式,那么可替换的就不仅仅是简单的变量名。可以嵌入计算、函数调用等等。

let count = 10,
    price = 0.25,
    message = `${count} items cost $${(count * price).toFixed(2)}.`;
console.log(message); // "10 items cost $2.50."
/*
此代码在模板字面量的一部分执行了一次计算, count 与 price 变量相乘,再使用.toFixed() 方法将结果格式化为两位小数。而在第二个替换位之前的美元符号被照常输出,因为没有左花括号紧随其后。
*/

模板字面量本身也是 JS 表达式,意味着你可以将模板字面量嵌入到另一个模板字面量内部。

let name = "Nicholas",
    message = `Hello, ${
`my name is ${ name }`
}.`;
console.log(message); // "Hello, my name is Nicholas."

一个模板标签( template tag )能对模板字面量进行转换并返回最终的字符串值,标签在模板的起始处被指定,即在第一个 ` 之前。

let message = tag`Hello world`;
// tag 就是会被应用到 `Hello world` 模板字面量上的模板标签。

定义标签

一个标签( tag )仅是一个函数,它被调用时接收需要处理的模板字面量数据。
标签所接收的数据被划分为独立片段,并且必须将它们组合起来以创建结果。
第一个参数是个数组,包含被 JS 解释过的字面量字符串,随后的参数是每个替换位的解释值。
标签函数的参数一般定义为剩余参数形式,以便更容易处理数据。

function tag(literals, ...substitutions) {
    // 返回一个字符串
}
let count = 10,
price = 0.25,
message = passthru`${count} items cost $${(count * price).toFixed(2)}.`;
/*
passthru() 函数,该函数将会接收到三个参数。
首先是一个literals 数组,包含如下元素:
在首个替换位之前的空字符串( "" );
首个替换位与第二个替换位之间的字符串( " items cost $" );
第二个替换位之后的字符串( "." )。
substitutions.length === literals.length - 1 的值总是 true
*/
function passthru(literals, ...substitutions) {
    let result = "";
    // 仅使用 substitution 的元素数量来进行循环
    for (let i = 0; i < substitutions.length; i++) {
        result += literals[i];
        result += substitutions[i];
    }
    // 添加最后一个字面量
    result += literals[literals.length - 1];
    return result;
}
let count = 10,
    price = 0.25,
    message = passthru `${count} items cost $${(count * price).toFixed(2)}.`;
console.log(message); // "10 items cost $2.50."

/*
执行与模板字面量的默认行为相同的转换操作。
在循环中使用 substituions.length 而不是 literals.length 来避免 substituions 数组的越界。
它能工作是由于 ES6 对 literals 和 substituions 的良好定义。

*/

使用模板字面量中的原始值

模板标签能访问字符串的原始信息,主要指的是可以访问字符在转义之前的形式。
可使用内置的 String.raw() 标签。

let message1 = `Multiline\nstring`,
    message2 = String.raw `Multiline\nstring`;
console.log(message1); // "Multiline
// string"
console.log(message2); // "Multiline\\nstring"

字符串的原始信息同样会被传递给模板标签。
标签函数的第一个参数为包含额外属性 raw 的数组,而 raw 属性则是含有与每个字面量值等价的原始值的数组。

例如, literals[0] 的值总是等价于包含字符串原始信息的 literals.raw[0] 的值

function raw(literals, ...substitutions) {
    let result = "";
    // 仅使用 substitution 的元素数量来进行循环
    for (let i = 0; i < substitutions.length; i++) {
        result += literals.raw[i]; // 改为使用原始值
        result += substitutions[i];
    }
    // 添加最后一个字面量
    result += literals.raw[literals.length - 1];
    return result;
}
let message = raw `Multiline\nstring`;
console.log(message); // "Multiline\\nstring"
console.log(message.length); // 17
/*
这里使用 literals.raw 而非 literals 来输出结果字符串。
这意味着任何转义字符都会以原始的形式返回。
当你想在输出的字符串中包含转义字符时,原始字符串会很有帮助。
*/

完整的 Unicode 支持允许 JS 以合理的方式处理 UTF-16 字符。通过 codePointAt() 与
String.fromCodePoint() 在代码点和字符之间转换的能力,是字符串操作的一大进步。正则
表达式新增的 u 标志使得直接操作代码点而不是 16 位字符变为可能,而 normalize() 方
法则允许进行更恰当的字符串比较。
ES6 也添加了操作字符串的新方法,允许你更容易识别子字符串,而不用管它在父字符串中
的位置。正则表达式同样引入了许多功能。
模板字面量是 ES6 的一项重要补充,允许你创建领域专用语言( DSL )让字符串的创建更容
易。能将变量直接嵌入到模板字面量中,意味着开发者在组合长字符串与变量时,有了一种
比字符串拼接更为安全的工具。
内置的多行字符串支持,是普通 JS 字符串绝对无法做到的,这使得模板字面量成为凌驾于前
者之上的有用升级。尽管在模板字面量中允许直接使用换行,你依然可以使用 \n 或其它字
符转义序列。
模板标签是创建 DSL 最重要的部分。标签是接收模板字面量片段作为参数的函数,你可以使
用它们来返回合适的字符串。这些数据包括了字面量、等价的原始值以及替换位的值,标签
使用这些信息片段来决定输出。

上一篇下一篇

猜你喜欢

热点阅读