String

2020-03-08  本文已影响0人  Hello_豆包

String是引用类型,它也是一个class,Java编译器对String有特殊处理,即可以直接用"..."来表示一个字符串。实际上String是通过char[]数组来表示的。

常用操作方法

// 是否包含子串:
"Hello".contains("el");

// 从前检索返回坐标索引,返回第一次出现的位置 2
"Hello".indexOf("l");
//从后索引返回第一次出现的位置 3
"Hello".lastIndexOf("l");
// 是否以某个字符串开头true
"Hello".startsWith("He");
//是否以某个字符串结尾 true
"Hello".endsWith("lo");

// 从给定索引的位置截取到最后包含索引位置"llo"
"Hello".substring(2);
//从给定索引的位置截取到给定结束位置,截取不包含结束位置索引的字符串 "ll"
"Hello".substring(2, 4);

  1. 使用trim()方法可以移除字符串首尾空白字符。空白字符包括空格,\t,\r,\n

2.strip()方法也可以移除字符串首尾空白字符。它和trim()不同的是,类似中文的空格字符\u3000也会被移除

// true,因为字符串长度为0
"".isEmpty();
// false,因为字符串长度不为0
" ".isEmpty();
// true,因为只包含空白字符
" \n".isBlank();
// false,因为包含非空白字符
" Hello ".isBlank();

  1. 根据字符或字符串替换:
    String s = "hello";
    s.replace('l', 'o'); // "heooo",所有字符'l'被替换为'o'
    s.replace("ll", "v"); // "hevo",所有子串"ll"被替换为"v"
  1. 通过正则表达式替换:

String s = "A,,B;C ,D";
s.replaceAll("[\,\;\s]+", ","); // "A,B,C,D"

String s = "A,B,C,D";
String[] ss = s.split(","); // {"A", "B", "C", "D"}

String[] arr = {"A", "B", "C"};
String s = String.join("", arr); // "AB***C"

  1. valueOf():
    String.valueOf(123); // "123"
  1. 要把字符串转换为其他类型,就需要根据情况。例如,把字符串转换为int类型:
    int n1 = Integer.parseInt("123"); // 123
    int n2 = Integer.parseInt("ff", 16); // 按十六进制转换,255
    把字符串转换为boolean类型:
    boolean b1 = Boolean.parseBoolean("true"); // true
    boolean b2 = Boolean.parseBoolean("FALSE"); // false
    要特别注意,Integer有个getInteger(String)方法,它不是将字符串转换为int,而是把该字符串对应的系统变量转换为Integer:
    Integer.getInteger("java.version"); // 版本号,11
    转换为char[]
    char[] cs = "Hello".toCharArray(); // String -> char[]
    String s = new String(cs); // char[] -> String (通过new String(char[])创建新的String实例时,不会直接引用传入的char[]数组,而是会复制一份,所以修改cs不会改变s)
  1. Java使用Unicode编码表示String和char。
  1. 转换编码就是将String和byte[]转换,需要指定编码:
    byte[] b1 = "Hello".getBytes(); // 按系统默认编码转换,不推荐
    byte[] b2 = "Hello".getBytes("UTF-8"); // 按UTF-8编码转换
    byte[] b3 = "Hello".getBytes("GBK"); // 按GBK编码转换
    byte[] b4 = "Hello".getBytes(StandardCharsets.UTF_8); // 按UTF-8编码转换
    如需将byte[]转换为String
    String s1 = new String(b2, "GBK"); // 按GBK转换
    String s2 = new String(3, StandardCharsets.UTF_8);
  1. Java的String和char在内存中总是以Unicode编码表示,转换为byte[]时,始终优先考虑UTF-8编码。
    对于不同版本的JDK,String类在内存中有不同的优化方式。具体来说,早期JDK版本的String总是以char[]存储,它的定义如下:
public final class String {
    private final char[] value;
    private final int offset;
    private final int count;
} 

而较新的JDK版本的String则以byte[]存储:如果String仅包含ASCII字符,则每个byte存储一个字符,否则,每两个byte存储一个字符,这样做的目的是为了节省内存,因为大量的长度较短的String通常仅包含ASCII字符:

public final class String {
    private final byte[] value;
    private final byte coder; //0 = LATIN1, 1 = UTF16

拓展

Java编译器对String做了特殊处理,使得我们可以直接用+拼接字符串,但是,在循环中,每次循环都会创建新的字符串对象,然后扔掉旧的字符串。这样,绝大部分字符串都是临时对象,不但浪费内存,还会影响GC效率。为了能高效拼接字符串,Java标准库提供了StringBuilder,它是一个可变对象,可以预分配缓冲区,这样,往StringBuilder中新增字符时,不会创建新的临时对象:

for (int i = 0; i < 1000; i++) {
    sb.append(',');
    sb.append(i);
}

链式操作(进行链式操作的关键是,定义的append()方法会返回this):

var sb = new StringBuilder(1024);
        sb.append("豆 ")
          .append("包")
          .append("!")

对于普通的字符串+操作,并不需要我们将其改写为StringBuilder,因为Java编译器在编译时就自动把多个连续的+操作编码为StringConcatFactory的操作。在运行期,StringConcatFactory会自动把字符串连接操作优化为数组复制或者StringBuilder操作。

StringBuffer,这是Java早期的一个StringBuilder的线程安全版本,它通过同步来保证多个线程操作StringBuffer也是安全的,但是同步会带来执行速度的下降。StringBuilder和StringBuffer接口完全相同,现在完全没有必要使用StringBuffer。

分隔符拼接数组的需求很常见,所以Java标准库还提供了一个StringJoiner;String还提供了一个静态方法join(),这个方法在内部使用了StringJoiner来拼接字符串。

上一篇下一篇

猜你喜欢

热点阅读