php字符串函数大全（php处理字符串函数）

小多多 • 2021年12月13日下午8:33 • 杂谈

什么是多字节的字符串操作呢？其实不少的同学可能都已经使用过了，但我们还是要从最基础的问题说起。

一个字符占几个字节并不是我们表面上看到的那样。正常情况下，一个数字或英文以及英文符号都是占用一个字节的。但是这个世界的语言文字何其之多，特别是像中文、日文这样的文字，往往用一个字节装不下，这时候就需要多字节来解决了（多字节一般第一个字节是前导字节表示当前是什么语言文字，后面的是正被的字节编码）。比如说一个中文字在 GBK 环境是占用两个字节，而在 UTF-8 下则是占用三个字节。而在最近几年，由于 emoji 表情的出现 UTF-8MB4 又成为了主流，在表示这些 emoji 表情字符的时候，往往又会使用 UTF-8MB4 这种占用四个字节的编码格式来表示。

虽说字节的不同设置能够帮助我们展示丰富的内容，但对它的一些操作却也带来了麻烦。

字符串操作

$str = \"abc测试一下\";echo strlen($str), PHP_EOL; // 15

strlen() 函数大家都不陌生，但是对于中文来说，它返回的数量明显是不对的。我们当前默认的编码格式是 UTF-8 ，所以将一个中文当做三个英文字符来数就正好是 15 个字符长度。很明显，这不是我们想要的结果，假设我们要截取字符串的话，这个长度的计算可是很费劲的，搞不好还容易出现乱码。

幸好在 PHP 的默认扩展中就已经为我们准备好了一组 mb_ 函数库，专门用来处理这类多字节字符串的问题。

echo mb_strlen($str), PHP_EOL; // 7echo mb_strlen($str, \'GB2312\'), PHP_EOL; // 11

在不指定 mb_strlen() 函数的第二个参数的情况下，会按照当前文档的默认编码格式来进行转换，所以我们的字符串长度就在 UTF-8 的环境下正常显示了。当然，我们也可以指定第二个参数为其它的编码格式，比如以前常用的 GB2312 或者 GBK ，这样返回的字符长度就是以一个中文占两个字节的形式返回长度了。

var_dump(mb_strpos($str, \"测\")); // int(3)var_dump(mb_convert_case($str, MB_CASE_UPPER)); // string(15) \"ABC测试一下\"var_dump(mb_convert_case($str, MB_CASE_LOWER)); // string(15) \"abc测试一下\"var_dump(mb_substr($str, 5)); // string(6) \"一下\"

当然，mb_ 相关的字符串操作函数是比较全面的，字符出现位置、大小写转换、截取字符串等函数都是提供的，调用的参数也都和普通的字符串操作函数没什么区别，只是它们多了一个可选的指定编码的参数。在通常的情况下，只要我们的文件是对应的编码格式，这个参数就不用去写了。

当然，字符串的操作函数还有很多，这里就不一一列举了，大家可以自行查阅相关的文档。

字符串正则操作

既然说到了字符串的操作，正则相关的功能也是必不可少的，我们先看下使用默认的 preg_ 相关的函数操作中文的问题。

$str = iconv(\'UTF-8\', \'GB2312\', $str);var_dump(preg_match(\"/[a-z]*测试/i\", $str)); // int(0)var_dump(preg_replace(\"/[a-z]*测试/i\",\"试试\", $str)); // string(11) \"abc����һ��\"

首先我们将测试用的字符串转换为 GB2312 的形式。就像我们获取的外部接口可能返回的就是 GB2312 的编码的。这时直接使用 preg_ 相关的函数是无法正确获得我们想要的结果的。

mb_regex_encoding(\'GB2312\');$pattern = iconv(\'UTF-8\', \'GB2312\', \"[a-z]*测试\");var_dump(mb_ereg($pattern, $str)); // int(1)var_dump(mb_eregi($pattern, $str)); // int(1)var_dump(mb_ereg_replace($pattern,\"试试\", $str)); // string(10) \"试试һ��\"var_dump(mb_eregi_replace($pattern,\"试试\", $str)); // string(10) \"试试һ��\"

接下来我们通过 mb_ereg 相关的函数来进行正则的匹配和替换，就能正常的对不同编码的字符串进行操作了。注意，我们需要指定 mb_regex_encoding() 函数，告诉当前默认的规划替换编码是 GB2312 ，同时，正则规则也要转换成对应的编码格式。

mb_eregi 相关的函数和 mb_ereg 其实没有本质上的区别，只是它不区分大小写了，就像 preg 相关函数中我们写正则时的后缀符号 i 一样。ereg 相关的函数都是不用写反斜杠的，在普通的函数中其实是已经被淘汰了的函数（性能没有 preg 好，语法也有区别），大部分情况下都会直接使用 preg 相关的函数来进行操作。不过如果是牵涉到多字节相关的问题，在 mb_ 函数库中还是只有 ereg 这类的函数可以使用。

字符串编码转换

就像我们之前学习过的 iconv() 函数一样，mb_ 库中也提供了字符编码转换的函数。

$phone = file_get_contents(\'https://tcc.taobao.com/cc/json/mobile_tel_segment.htm?tel=13888888888\');print_r($phone);// __GetZoneResult_ = {//     mts:\'1388888\',//     province:\'����\',//     catName:\'�й��ƶ�\',//     telString:\'13888888888\',//     areaVid:\'30515\',//     ispVid:\'3236139\',//     carrier:\'�����ƶ�\'// }var_dump(mb_convert_encoding($phone, \'UTF-8\', \"GBK\"));// string(183) \"__GetZoneResult_ = {//     mts:\'1388888\',//     province:\'云南\',//     catName:\'中国移动\',//     telString:\'13888888888\',//     areaVid:\'30515\',//     ispVid:\'3236139\',//     carrier:\'云南移动\'// }// \"echo mb_detect_encoding($phone, \'UTF-8,GBK\'), PHP_EOL; // CP936

同样我们还是拿这个获取手机号信息的公共接口测试，它返回的内容是 GBK 的编码内容。我们可以通过 mb_convert_encoding() 来转换它的编码内容。mb_detect_encoding() 是检测编码格式，这里我们给了两个参数，它会返回符合条件的编码内容，CP936 就是 GBK 的另一种表示（IBM在制作 code page 时将 GBK 编码放在了第 936 页）。

HTTP 参数操作

mb_internal_encoding(\"UTF-8\");

首先介绍一个 mb_internal_encoding() 函数，其实就是设置当前运行环境中的默认编码规则的，如果不设置的话，就是以当前这个 php 文件的编码规则为默认的。大家了解一下，因为它会影响我们后面介绍的内容。

// // localhost:9991/?a=我上var_dump(mb_http_input(\'GPC\')); // bool(false)var_dump(mb_http_output()); // string(5) \"UTF-8\"mb_internal_encoding(\"CP936\");mb_parse_str($_SERVER[\'QUERY_STRING\'], $result);print_r($result);// Array// (//     [a] => 我上// )

首先我们运行起来测试文件，然后用浏览器请求这个链接地址。mb_http_input() 是检测 HTTP 输入字符编码，不过我测试的结果都是返回 false 。有了解的小伙伴可以留言说明下这个是什么情况。而 mb_http_output 则是设置检测输出的编码，这个就会受到 mb_internal_encoding() 所定义的内容的影响。

另外，mb_parse_str() 是 parse_str() 函数的多字节版，我们可以将浏览器的默认编码转换成 GBK 或者之后再来请求，因为我们设置当前的 mb_internal_encoding() 为 CP936 了。在默认情况下，如果使用 UTF-8 的浏览器请求的话，这里就会报错了，这就是 mb_internal_encoding() 对这些函数的影响。

其它属性查看

最后，我们再来看看一些 mb_ 相关信息属性的内容。

var_dump(mb_language());// string(7) \"neutral\"

mb_language() 函数用于获取/设置当前的语言，它可以接收一个参数设置当前的语言信息。主要用于编码邮件信息 mb_send_mail() 函数就是使用它来对邮件进行编码。关于 mb_send_mail() 的使用大家可以自己尝试一下，其实也是 send_mail() 函数的多字节版。neutral 的意思是中立的，其实也是跟我们的 mb_internal_encoding() 有关。

var_dump(mb_list_encodings());// array(86) {//     [0]=>//     string(4) \"pass\"//     [1]=>//     string(5) \"wchar\"//     [2]=>//     string(7) \"byte2be\"//     [3]=>//     ……//     [65]=>//     string(5) \"CP936\"//     ……

mb_list_encodings() 用于展示当前系统中所支持的所有语言编码的列表，在这个列表中我们就可以看到 CP936 的身影，但是没有 GBK 哦，记住它们俩是一个东西就好了。

var_dump(mb_get_info());// array(14) {//     [\"internal_encoding\"]=>//     string(5) \"UTF-8\"//     [\"http_output\"]=>//     string(5) \"UTF-8\"//     [\"http_output_conv_mimetypes\"]=>//     string(31) \"^(text/|application/xhtml\\+xml)\"//     [\"func_overload\"]=>//     int(0)//     [\"func_overload_list\"]=>//     string(11) \"no overload\"//     [\"mail_charset\"]=>//     string(5) \"UTF-8\"//     [\"mail_header_encoding\"]=>//     string(6) \"BASE64\"//     [\"mail_body_encoding\"]=>//     string(6) \"BASE64\"//     [\"illegal_chars\"]=>//     int(0)//     [\"encoding_translation\"]=>//     string(3) \"Off\"//     [\"language\"]=>//     string(7) \"neutral\"//     [\"detect_order\"]=>//     array(2) {//       [0]=>//       string(5) \"ASCII\"//       [1]=>//       string(5) \"UTF-8\"//     }//     [\"substitute_character\"]=>//     int(63)//     [\"strict_detection\"]=>//     string(3) \"Off\"//   }

mb_get_info() 是查看当前环境下默认的这些语言编码的配置，比如我们熟悉的 internal_encoding 、 http_output 属性都能在这里看到。

总结

用过的同学是不是也发现了今天文章的新姿势了呢？没错，GBK 和 CP936 反而成为了今天文章的意外惊喜。这个在之前确实还真没有注意到。其实 mb_ 相关的函数的使用已经非常普遍了，基本算是学习 PHP 的入门必备知识了。它还有很多的函数并没有一一地列举出来，有兴趣的同学可以多多查阅官方手册进行更加深入地学习。

小多多创始人

0 0

杂谈

网上订飞机票取票流程（美国911劫机人员）

来源：海外网恐怖分子劫持的客机撞击五角大楼后，现场一片狼藉。海外网9月11日电911事件将满20周年，一名曾在美国机场工作的票务员近日回忆称，20年前，他恰巧为9·11事件的两名…

小多多
2021年12月10日
excel表格大小调整方法(excel如何打印全部内容)

工作中虽然Word的打印会比Excel打印用得多，但是在Excel打印表格的时候打印出来的表格和我们想象中有所不同，今天就来看看一些Excel打印常见的问题如何解决吧! 这样直接点…

小多多
2021年12月13日 • 杂谈
excel快速查找相同项(excel找重复的内容)

excel中排除重复值一般会用到两种方法：一个是点击【数据】-【删除重复值】，缺点是操作之后，你都不知道是哪儿的重复值被删除了。其实excel自带了最简单的方法找出一列的重复值…

小多多
杂谈 2021年12月13日
tenda无线网卡驱动程序（无线网卡驱动安装方法）

在我们日常使用WiFi的时候，经常会出现WiFi体验不佳的情况。这个时候，我们往往是在找无线路由器的问题，忽视了另外一个重要的因素——无线网卡。无线路由器端是WiFi的发射端，而且…

小多多
2021年12月13日 • 杂谈
杂谈

北京环球影城票价 022北京环球影城门票价格一览表

2022北京环球影城门票需要提前预定抢购了，对于2022北京环球影城是北京热点景点，也将会是五一，国庆等节假日去的游客最多的景点，那么2022北京环球影城门票价格贵吗，什么时候淡季…

海淘直接
2022年6月22日
教你查别人ip地址精确位置(通过ip查地址的网站)

在大数据时代，了解收集用户来源是必不可少的功能之一，本地搭建IP库进行IP分析是ELK日志分析功能的一部分，本文进行了工具拆解，将一步步教你搭建日志分析平台。安装 geoip2 …

小多多
杂谈 2021年12月13日
海尔三翼鸟凭借过硬实力，受到众多央视主持人青睐

近期，《央young之夏》迎来成团夜，海尔三翼鸟活力健身阳台和智慧穿搭衣帽间凭借过硬实力和超高颜值，受到康辉、撒贝宁、小尼、月亮姐姐等众多央视主持人的青睐，C位出圈。小小阳台既可以…

小多多
杂谈 2021年12月13日
当天鹅到家提醒雇主，家政阿姨的简历别太“当真”？

“一个通过了天鹅到家的专业技能培训，也拿着由天鹅到家发放的技能证书的保姆阿姨，在上门服务期间竟然连饭都煮不熟，很多家务都不会做。” 严琦告诉锌刻度，但在天鹅到家平台上，该服务人员投…

小多多
2021年12月13日 • 杂谈
airpods官网查询序列号(苹果设备序列号查询真伪)

iPhone13系列已经正式发布，iPhone11、iPhone12系列迎来大降价，小伙伴们的口袋准备好冲了吗？我们知道苹果官方是很少有降价活动的，其它国内购物平台活动多，优惠力…

小多多
2021年12月13日 • 杂谈
小红书抽奖频繁怎么办

小红书抽奖显示抽奖频繁可能是抽奖人数过多导致服务器卡顿造成的。我们可以通过退出小红书，然后再重新进入就好了。如果重进之后依旧显示抽奖频繁可以继续推出再重进多试几次就好了。小红书是…

季候
杂谈 2022年4月6日
灰文鸟一年繁殖几次

灰文鸟一年可以繁殖4窝。它通常会在灌丛或小树丛内营巢，筑好巢就会产卵，通常每窝会产4-7枚，经过16-18天的孵化，雏鸟就可以破壳而出。之后要再等10天，雏鸟才能睁眼，15天会长羽…

小多多
杂谈 2021年12月13日
分析大龄剩女的心态（附熟女事业爱情兼并案例）

大家好，今天我想跟大家探讨一下，大龄女青年征服男人的方法。据数据统计，全球女性选择保持单身的比例越来越高了。步入婚姻年龄的呢也越来越晚了，不少单身女生拥有高学历、高收入、高颜值，…

季候
杂谈 2022年4月8日
除了AirPods 3以外这几款真无线耳机也值得推荐

现在就可以去看看自己的购物车有没有需要在今天晚上开始付定金的商品喽，这波优惠要是错过了那真的是亏大了。今天为大家盘点一下近期值得购买的真无线耳机，而且小道消息显示，这几款耳机在双十…

小多多
杂谈 2021年12月13日
坐拥4500万粉丝，张沫凡是如何逃出“网红短命论”？

“网红”张沫凡在抖音上也火了。熟悉她的粉丝都知道，张沫凡在互联网上已经火了超过10年，从人人网起家，转战到微博、淘宝直播、再到抖音上，她一直没停。在今年的818抖音新潮好物晚会…

小多多
2021年12月13日 • 杂谈
香雪公园有什么好玩（广州赏梅打卡胜地）

大家都知道广州又称羊城，而关于羊城八景，不同的年代有着不同的说法，比如现在被人所知的云山叠翠白云山、越秀新晖越秀山、古祠流芳陈家祠等等。今天我们要去的地方，是萝岗香雪公园，这里曾是…

季候
2022年4月8日 • 杂谈

发表回复

登录后才能评论