String

2020-03-08 本文已影响0人 Hello_豆包

String是引用类型，它也是一个class,Java编译器对String有特殊处理，即可以直接用"..."来表示一个字符串。实际上String是通过char[]数组来表示的。

常用操作方法

字符串比较使用equals(),而不是==，忽略大小比较使用equalsIgnoreCase()。
是否包含某个字符串使用contains()

// 是否包含子串:
"Hello".contains("el");

搜索子串

// 从前检索返回坐标索引，返回第一次出现的位置 2
"Hello".indexOf("l");
//从后索引返回第一次出现的位置 3
"Hello".lastIndexOf("l");
// 是否以某个字符串开头true
"Hello".startsWith("He");
//是否以某个字符串结尾 true
"Hello".endsWith("lo");

提取子串的例子：

// 从给定索引的位置截取到最后包含索引位置"llo"
"Hello".substring(2);
//从给定索引的位置截取到给定结束位置，截取不包含结束位置索引的字符串 "ll"
"Hello".substring(2, 4);

去除首尾空白字符（返回新的字符串，字符串不可变）

使用trim()方法可以移除字符串首尾空白字符。空白字符包括空格，\t，\r，\n

2.strip()方法也可以移除字符串首尾空白字符。它和trim()不同的是，类似中文的空格字符\u3000也会被移除

判断字符串是否为空和空白字符串

// true，因为字符串长度为0
"".isEmpty();
// false，因为字符串长度不为0
" ".isEmpty();
// true，因为只包含空白字符
" \n".isBlank();
// false，因为包含非空白字符
" Hello ".isBlank();

替换子串

根据字符或字符串替换：
String s = "hello";
s.replace('l', 'o'); // "heooo"，所有字符'l'被替换为'o'
s.replace("ll", "v"); // "hevo"，所有子串"ll"被替换为"v"

通过正则表达式替换：

String s = "A,,B;C ,D";
s.replaceAll("[\,\;\s]+", ","); // "A,B,C,D"

分割字符串（也可传入正则表达式）

String s = "A,B,C,D";
String[] ss = s.split(","); // {"A", "B", "C", "D"}

拼接字符串

String[] arr = {"A", "B", "C"};
String s = String.join("", arr); // "AB***C"

类型转换

valueOf():
String.valueOf(123); // "123"

要把字符串转换为其他类型，就需要根据情况。例如，把字符串转换为int类型：
int n1 = Integer.parseInt("123"); // 123
int n2 = Integer.parseInt("ff", 16); // 按十六进制转换，255
把字符串转换为boolean类型：
boolean b1 = Boolean.parseBoolean("true"); // true
boolean b2 = Boolean.parseBoolean("FALSE"); // false
要特别注意，Integer有个getInteger(String)方法，它不是将字符串转换为int，而是把该字符串对应的系统变量转换为Integer：
Integer.getInteger("java.version"); // 版本号，11
转换为char[]
char[] cs = "Hello".toCharArray(); // String -> char[]
String s = new String(cs); // char[] -> String （通过new String(char[])创建新的String实例时，不会直接引用传入的char[]数组，而是会复制一份，所以修改cs不会改变s）

编码转换

Java使用Unicode编码表示String和char。

转换编码就是将String和byte[]转换，需要指定编码：
byte[] b1 = "Hello".getBytes(); // 按系统默认编码转换，不推荐
byte[] b2 = "Hello".getBytes("UTF-8"); // 按UTF-8编码转换
byte[] b3 = "Hello".getBytes("GBK"); // 按GBK编码转换
byte[] b4 = "Hello".getBytes(StandardCharsets.UTF_8); // 按UTF-8编码转换
如需将byte[]转换为String
String s1 = new String(b2, "GBK"); // 按GBK转换
String s2 = new String(3, StandardCharsets.UTF_8);

Java的String和char在内存中总是以Unicode编码表示，转换为byte[]时，始终优先考虑UTF-8编码。
对于不同版本的JDK，String类在内存中有不同的优化方式。具体来说，早期JDK版本的String总是以char[]存储，它的定义如下：

public final class String {
    private final char[] value;
    private final int offset;
    private final int count;
}

而较新的JDK版本的String则以byte[]存储：如果String仅包含ASCII字符，则每个byte存储一个字符，否则，每两个byte存储一个字符，这样做的目的是为了节省内存，因为大量的长度较短的String通常仅包含ASCII字符：

public final class String {
    private final byte[] value;
    private final byte coder; //0 = LATIN1, 1 = UTF16

拓展

Java编译器对String做了特殊处理，使得我们可以直接用+拼接字符串,但是，在循环中，每次循环都会创建新的字符串对象，然后扔掉旧的字符串。这样，绝大部分字符串都是临时对象，不但浪费内存，还会影响GC效率。为了能高效拼接字符串，Java标准库提供了StringBuilder，它是一个可变对象，可以预分配缓冲区，这样，往StringBuilder中新增字符时，不会创建新的临时对象:

for (int i = 0; i < 1000; i++) {
    sb.append(',');
    sb.append(i);
}

链式操作（进行链式操作的关键是，定义的append()方法会返回this）：

var sb = new StringBuilder(1024);
        sb.append("豆 ")
          .append("包")
          .append("!")

对于普通的字符串+操作，并不需要我们将其改写为StringBuilder，因为Java编译器在编译时就自动把多个连续的+操作编码为StringConcatFactory的操作。在运行期，StringConcatFactory会自动把字符串连接操作优化为数组复制或者StringBuilder操作。

StringBuffer，这是Java早期的一个StringBuilder的线程安全版本，它通过同步来保证多个线程操作StringBuffer也是安全的，但是同步会带来执行速度的下降。StringBuilder和StringBuffer接口完全相同，现在完全没有必要使用StringBuffer。

分隔符拼接数组的需求很常见，所以Java标准库还提供了一个StringJoiner；String还提供了一个静态方法join()，这个方法在内部使用了StringJoiner来拼接字符串。

String

常用操作方法

拓展

猜你喜欢

热点阅读