首页 > itarticle > 正则

正则

admin 1月 18, 2021 0

0x1 爬虫过程遇到需要截取到<span id="xhxm">张三同学</span>里面同学的名称

1.正则解决

2.通过字符串解决

0x2 通过正则解决

1.简单解决

<span id="xhxm">(.)u540cu5b66</span>

2.零宽断言解决

>(.)(?=u540cu5b66)

这里使用零宽度正预测先行断言(?=exp)

就是找到匹配之前的内容

(?<=exp)用来找到匹配之后的东西，称为零宽度正回顾后发断言

0x3 通过mb_substr解决先匹配张三同学,然后截取字符串

因为这里的header是gb2312，所以指定mb_substr的编码为gb2312

substr直接处理汉字会造成乱码的问题，可以使用mb_substr指定汉字编码方式gb2312

这样就可以截取到到张三

0x4 这不算完