PHP强化之01 - 字符串 String(新)
----- 最后更新【2022-01-05】-----
一、简介
在 PHP 中,一个字符串(String)就是由一系列的字符组成,其中每个字符等同于1
个字节。这意味着 PHP 底层只能支持256
的字符集,因此不支持 Unicode 等其它字符集(就比如 UTF-8:每个字符需要占用1到4个字节,而1个中文字符的 UTF-8 编码需要占用3个字节)。
String 的实现方式是(一个由字节组成的)数组
再加上一个整数(指明缓冲区长度)
。可以这样理解,如字符串hello
,它在 PHP 中的实现方式就是由一个数组['h','e','l','l','o']
和一个整数5
组成。所以,如果一个字符串中如果存在多字节字符
的话,那 PHP 就会把它拆分成开来储存(如一个 UTF-8 中文字符会被分为3个字节存储)。
实现方式清楚了,但是 PHP 并没有如何将字节转换成字符的信息,也就是没有特别指明字符串使用的编码方式。相反它是把这个交给程序员自己来决定了,程序员可以根据自己的需求,决定使用什么字符编码。默认情况下字符串会被按照该脚本文件相同的编码方式来编码,因此如果一个脚本的编码是 ISO-8859-1,则其中的字符串也会被编码为 ISO-8859-1。
理解以上的概念对熟悉使用 PHP 的 String 类型来说是非常重要的,因为一个 PHP 程序员其实大部分时间都是在和字符串打交道。(关于字符集和字符编码的介绍可以查看本文末尾的参考部分)
二、String 语法
1、字符串的4种声明方式:
在php语法当中,一个字符串可以用 4 种方式表示,它们分别是:单引号
、双引号
、heredoc语法结构
、nowdoc语法结构
。
1)单引号
要表达一个单引号自身,需在它的前面加个反斜线\
来转义,即\'
。要表达一个反斜线自身,则用两个反斜线\\
。其它任何方式的反斜线都会被当成反斜线本身,即在单引号字符串中的变量和特殊字符的转义序列将不会被替换(例如\r
或者\n
也是不会被转义,也是原样输出)。
2)双引号
如果字符串是包围在双引号" "
中, PHP 将对一些特殊的字符进行解析。
当 PHP 解析器遇到一个美元符号$
时,它会和其它很多解析器一样,去组合尽量多的标识以形成一个合法的变量名。可以用花括号{}
来明确变量名的界线。
常见的转义字符:
转义字符 | 含义 |
---|---|
\n | 换行(ASCII 字符集中的 LF 或 0x0A (10)) |
\r | 回车(ASCII 字符集中的 CR 或 0x0D (13)) |
\t | 水平制表符(ASCII 字符集中的 HT 或 0x09 (9)) |
\v | 垂直制表符(ASCII 字符集中的 VT 或 0x0B (11)) |
\e | Escape(ASCII 字符集中的 ESC 或 0x1B (27)) |
\f | 换页(ASCII 字符集中的 FF 或 0x0C (12)) |
$name | PHP变量的值 |
\$ | 美元符号本身 |
\\ | 反斜线本身 |
\" | 双引号本身 |
\[0-7]{1,3} | 符合该正则表达式序列的是一个以八进制方式来表达的字符 |
\x[0-9A-Fa-f]{1,2} | 符合该正则表达式序列的是一个以十六进制方式来表达的字符 |
\u{[0-9A-Fa-f]+} | 匹配正则表达式的字符序列是 unicode 码位, 该码位能作为 UTF-8 的表达方式输出字符串 |
3)heredoc 语法结构
第三种表达字符串的方法是用 heredoc 语法结构:<<<
。在该运算符之后要提供一个标识符,然后换行。接下来是字符串 string 本身,最后要用前面定义的标识符作为结束标志。
$str = <<<EOD
Example of string
spanning multiple lines
using heredoc syntax.
EOD;
Warning: 要注意的是结束标识符这行除了可能有一个分号;
外,绝对不能包含其它字符。这意味着标识符不能缩进,分号的前后也不能有任何空白或制表符。
4)nowdoc 语法结构
就象 heredoc 结构类似于双引号字符串,Nowdoc 结构是类似于单引号字符串的。Nowdoc 结构很像 heredoc 结构,但是 nowdoc 中不进行解析操作。这种结构很适合用于嵌入 PHP 代码或其它大段文本而无需对其中的特殊字符进行转义。
一个 nowdoc 结构也用和 heredocs 结构一样的标记<<<
, 但是跟在后面的标识符要用单引号括起来,即<<<'EOT'
。Heredoc 结构的所有规则也同样适用于 nowdoc结构,尤其是结束标识符的规则。
$str = <<<'EOD'
Example of string
spanning multiple lines
using nowdoc syntax.
EOD;
注意:
-- 单引号比双引号效率更高。
-- 当双引号里面包含单引号,然后单引号里面包含变量,这种情况变量也是会正常解析的,同时单引号会原样输出。
2、存取和修改字符串中的字符:
string 中的字符可以通过一个从 0
开始的下标,用类似 array 结构中的方括号包含对应的数字来访问和修改,比如$str[4]
。也可用花括号访问,比如 $str{4}
。(从 PHP 7.4 起,访问字符串的{}
大括号语法被弃用,自 PHP 8.0.0 开始已移除。)
php > $str = "Hi, I'm a.";
php > $str[8]='b';
php > echo $str;
Hi, I'm b.
注意!使用以上方法修改字符串的时候要特别小心,因为 PHP 的字符串在内部是由一个1字节
的值组成的数组(可以看作是Byte类型),所以它在二进制下的取值范围为0~255
(例如ASCII、ISO-8859-1是单字节编码,所以它们不会有问题)。如果修改的值大于1字节
的话,那么可能会出现乱码或者字符串丢失等问题。
如:
php > $str = 'hello, Nosee!';
php > $str[0] = '我';
php > echo $str;
夬lo, Nosee!
php >
上面就出现了乱码(以上脚本使用的是UTF-8编码,那么中文的我
字就需要3
个字节来表示,这就导致后面2
个字节的值会丢失,所以出现了乱码)。
Tip:字符串可以用 '.
'(点)运算符连接起来,注意 '+
'(加号)运算符没有这个功能。
3、字符串类型转换
1)自动转换
在一个需要字符串的表达式中,会自动转换为 string。比如在使用函数 echo 或 print 时,或在一个变量和一个 string 进行比较时,也会发生这种转换。
2)手动转换
一个值可以通过在其前面加上(string)
或用strval()
函数来转变成字符串,也可参考函数settype()
,如settype($var, "string");
。
三、常用函数
与字符串相关的常用方法,这里总结为以下六个大类:
1.获取子字符串、2.字符串替换、3.查找子字符串的位置、4.修改字符串、5.字符串转为数组、6.其它常用方法
1、获取子字符串
方法 | 说明 |
---|---|
substr | 返回字符串中指定位置的子串 |
mb_substr | 根据字符数执行一个多字节安全的 substr() 操作。 |
strstr (别名: strchr) | 查找字符串的首次出现,返回该位置到字符串末尾的部分 |
stristr | strstr函数的忽略大小写版本 |
strrchr | 查找指定字符在字符串中的最后一次出现,返回字符串到末尾的部分 |
preg_match | 执行匹配正则表达式(在第一次匹配成功后,将会停止搜索) |
preg_match_all | 执行一个全局正则表达式匹配 |
strpbrk | 在字符串中查找一组字符的任何一个字符 |
例1:substr—返回字符串的子串
string substr( string $string, int $start [, int $length ] )
返回字符串 string 由 start 和 length 参数指定的子字符串。
substr("abcdef", -3, 1); // 返回 "d"
substr('abcdef', 1, 3); // bcd
$a = '第二部分'; # 注意:一个汉字等于3个UTF_8字符
substr($a, 0, 3); // 返回 "第"
substr($a, 0, 4); // 返回 "第�",后面会多一个乱码
例2:strstr—查找字符串的首次出现;别名也叫strchr
string strstr ( string $haystack , mixed $needle [, bool $before_needle = FALSE ] )
返回 haystack 字符串从 needle 第一次出现的位置开始到 haystack 结尾的字符串
Note:如果你仅仅想确定needle是否存在于haystack中,请使用速度更快、耗费内存更少的strpos()
函数。
$email = 'name@example.com';
echo strstr($email, '@'); // 打印 @example.com
echo strstr($email, '@', true); // 打印 name,从 PHP 5.3.0 起
2、字符串替换
方法 | 说明 |
---|---|
substr_replace | 替换字符串指定位置的子串 |
str_replace | 子字符串替换(搜索替换) |
str_ireplace | str_replace 的忽略大小写版本 |
strtoupper | 将字符串转化为大写 |
strtolower | 将字符串转化为大写 |
ucfirst | 将字符串的首字母转换为大写 |
ucwords | 将字符串中每个单词的首字母转换为大写 |
lcfirst | 使一个字符串的第一个字符小写 |
例1:substr_replace—替换字符串的子串
mixed substr_replace ( mixed $string , mixed $replacement , mixed $start [, mixed $length ] )
substr_replace() 在字符串 string 的副本中将由 start 和可选的 length 参数限定的子字符串使用 replacement 进行替换。返回结果字符串。如果 $string 是个数组,那么也将返回一个数组。
Tip: 在用于长文本隐藏时非常有用(如用...
来替换后面的字符串)。
php > $str ='sdkfjhaskiufhasvcnaisuefhwaief';
php > echo substr_replace($str,'...',10);
sdkfjhaski...
例2:str_replace—子字符串替换(搜索替换)
mixed str_replace ( mixed $search , mixed $replace , mixed $subject [, int &$count ] )
该函数返回一个字符串或者数组。该字符串或数组是将 subject 中全部的 search 都被 replace 替换之后的结果。
如果没有一些特殊的替换需求(比如正则表达式),你应该使用该函数替换 ereg_replace()
和 preg_replace()
。
php > $str = "Line 1,\nLine 2,\rLine3,\r\nLine 4";
php > $search = array("\r\n", "\n", "\r");
php > $replace = '<br />';
php > $newstr = str_replace($order, $replace, $str); //首先替换 \r\n 字符,因此它们不会被两次转换
php > echo $newstr;
Line 1,<br />Line 2,<br />Line3,<br />Line 4
3、查找子字符串的位置
方法 | 说明 |
---|---|
strpos | 查找字符串首次出现的位置 |
stripos | 查找字符串首次出现的位置(不区分大小写) |
strrpos | 计算指定字符串在目标字符串中最后一次出现的位置 |
strripos | 计算指定字符串在目标字符串中最后一次出现的位置(不区分大小写) |
例1: strpos—查找字符串首次出现的位置
int strpos ( string $haystack , mixed $needle [, int $offset = 0 ] )
返回 needle 在 haystack 中首次出现的数字位置。
$newstring = 'abcdef abcdef';
$pos = strpos($newstring, 'a'); //$pos = 0
$pos = strpos($newstring, 'a', 1); // $pos = 7, 不是 0
当返回值为0的时候的要小心,如果是用作判断条件应该用全等号"==="或"!=="。
4、修改字符串
方法 | 说明 |
---|---|
strrev | 反转字符串 |
trim | 去除字符串首尾处的空白字符(或者其他字符) |
ltrim | 删除字符串开头的空白字符(或其他字符) |
rtrim (别名: chop) | 删除字符串末端的空白字符(或者其他字符) |
strip_tags | 从字符串中去除 HTML 和 PHP 标记 |
wordwrap | 打断字符串为指定数量的字串(换行) |
str_pad | 使用另一个字符串填充字符串为指定长度 |
str_repeat | 重复一个字符串 |
strip_tags | 从字符串中去除 HTML 和 PHP 标记 |
htmlspecialchars | 将特殊字符转换为 HTML 实体 |
str_shuffle | 随机打乱一个字符串 |
例1:strrev—反转字符串
php > echo strrev("Hello world!");
!dlrow olleH
例2:从字符串中去除 HTML 和 PHP 标记
string strip_tags ( string $str [, string $allowable_tags ] )
该函数尝试返回给定的字符串 str
去除空字符、HTML 和 PHP 标记后的结果。它使用与函数 fgetss()一样的机制去除标记。
php > $text = '<p>Test paragraph.</p><!-- Comment --> <a href="#fragment">Other text</a>';
php > echo strip_tags($text, '<p><a>'); // 允许 <p> 和 <a>
<p>Test paragraph.</p> <a href="#fragment">Other text</a>
例3:使文本在指定行长度自动换行。
string wordwrap ( string $str [, int $width = 75 [, string $break = "\n" [, bool $cut = FALSE ]]] )
参数说明:str--输入字符串。 width--列宽度。 break--使用可选的break参数打断字符串。 cut--如果cut设置为TRUE,字符串总是在指定的width或者之前位置被打断。因此,如果有的单词宽度超过了给定的宽度,它将被分隔开来。当它是FALSE,函数不会分割单词,哪怕width小于单词宽度。
php > $text = "A very long woooooooooooord.";
php > $newtext = wordwrap($text, 8, "\n", true);
php > echo $newtext;
A very
long
wooooooo
ooooord.
php > $newtext = wordwrap($text, 8, "\n", false);
php > echo $newtext;
A very
long
woooooooooooord.
5、字符串转为数组
方法 | 说明 |
---|---|
str_split | 将字符串转换为数组 |
preg_split | 通过一个正则表达式分隔字符串。 |
explode | 使用一个字符串分割另一个字符串,返回一个数组 |
例1:str_split—将一个字符串转换为数组
array str_split ( string $string [, int $split_length = 1 ] )
php > $str = "Hello Friend";
php > $arr = str_split($str, 3);
php > print_r($arr);
Array
(
[0] => Hel
[1] => lo
[2] => Fri
[3] => end
)
例2:preg_split - 通过一个正则表达式分隔字符串
array preg_split ( string $pattern , string $subject [, int $limit = -1 [, int $flags = 0 ]] )
通过一个正则表达式分隔给定字符串.
php > //使用逗号或空格(包含" ", \r, \t, \n, \f)分隔短语
php > $keywords = preg_split("/[\s,]+/", "hypertext language, programming");
php > print_r($keywords);
Array
(
[0] => hypertext
[1] => language
[2] => programming
)
例3:explode—使用一个字符串分割另一个字符串,返回一个数组。
array explode ( string $delimiter , string $string [, int $limit ] )
此函数返回由字符串组成的数组,每个元素都是 string 的一个子串,它们被字符串 delimiter 作为边界点分割出来。
php > $str = 'one|two|three|four';
php > print_r(explode('|', $str));
Array
(
[0] => one
[1] => two
[2] => three
[3] => four
)
php > print_r(explode('|', $str, 2)); // 正数的 limit
Array
(
[0] => one
[1] => two|three|four
)
php > print_r(explode('|', $str, -1)); // 负数的 limit(自 PHP 5.1 起)
Array
(
[0] => one
[1] => two
[2] => three
)
6、其它常用函数
方法 | 说明 |
---|---|
strlen | 返回给定的字符串的长度 |
mb_strlen | 返回具有字符编码的字符串包含的字符数(多字节的字符被计为 1) |
strval | 获取变量的字符串值 |
is_string | 检测变量是否是字符串 |
substr_count | 计算字串出现的次数 |
str_word_count | 返回字符串中单词的使用情况 |
例1:获取字符串长度
$str = '玩去吧a';
echo strlen($str); //输出10
echo mb_strlen($str); //输出10
echo mb_strlen($str,'UTF-8'); //输出4
注:在PHP中,字符串的长度信息是直接存储在zval结构体中的,所以函数strlen()的速度非常快,时间复杂度为O(1)。
四、经典实例
1、求出字符串"45,8,7,22,34,1,12"所有数字的总合。
<?php
$a = '45,8,7,22,34,1,12';
$a_arr = explode(',',$a); //转化为数组
$sum = array_sum($a_arr); //将数组中的所有值相加
var_dump($sum);
// 运行结果如下:
nosee123@Chan:~$ php demo9.php
int(129)
扩展:如果字符串中的数字并不是规范地间隔开来的呢,这时要怎么处理。如,字符串"aa56 hello,--12--5,10"。
$str = 'aa56 hello,--12--5,10';
preg_match_all('/([0-9]+)/',$str,$reg); //取出字符串中的所有数字
$sum = array_sum($reg[1]); //将数组中的所有值相加
var_dump($sum);
// 运行结果如下:
nosee123@Chan:~$ php demo9.php
int(83)
注意:如果要兼容数字有小数点的情况,则正则表达式改为/([0-9]+\.?[0-9]*)/
2、统计字符串"aaa,abcd,xxxdd;dcba"中每个字符出现的次数。
$str ='aaa,abcd,xxxdd;dcba';
$arr = str_split($str); //字符串分割成数组
$res = array_count_values($arr); //统计数组中所有值出现的次数
var_dump($res);
// 结果如下:
array (size=7)
'a' => int 5
',' => int 2
'b' => int 2
'c' => int 2
'd' => int 4
'x' => int 3
';' => int 1
其它方法参考:
$res = array();
$arr = str_split($str);
foreach ($arr as $key => $val) {
if (!isset($res[$val])) {
$res[$val] = 1;
} else {
$res[$val] += 1;
}
}
//或者:
$res = array();
$arr = str_split($str);
$unique = array_unique($arr);
foreach ($unique as $key => $val) {
$res[$val] = substr_count($str, $val); // 统计某字符在字符串中出现的次数
}
3、不使用PHP函数,用方法写一个反转字符串的函数
这里很明显是不能使用PHP的内置函数strrev()
,下面我们来模拟一个strrev方法:
$str = 'abcdefg';
function str_rev($str){
$res = '';
$len = strlen($str);
for($i=$len; $i>0;$i--){
$res .= $str[$i-1];
}
return $res;
}
echo str_rev($str); //输出为:gfedcba
4、将字符串"open_door"转换成"OpenDoor"、"make_by_id"转换成 "MakeById"。
//方法1:
str_replace(' ','',ucwords(str_replace('_',' ',$str)));
//方法2:
implode('',array_map('ucwords',explode('_',$str)))
五、参考:
1、官方文档:
http://php.net/manual/zh/book.strings.php
http://php.net/manual/zh/language.types.string.php
2、相关书籍:
《PHP经典实例》 David Sklar & Adam Trachtenberg
3、其它文章
字节、字符以及字符编码之间的关系