
0x1 爬虫过程遇到需要截取到<span id="xhxm">张三同学</span>里面同学的名称
1.正则解决
2.通过字符串解决
0x2 通过正则解决
1.简单解决
<span id="xhxm">(.)u540cu5b66</span>

2.零宽断言解决
>(.)(?=u540cu5b66)

这里使用零宽度正预测先行断言(?=exp)
就是找到匹配之前的内容
(?<=exp)用来找到匹配之后的东西,称为零宽度正回顾后发断言
0x3 通过mb_substr解决 先匹配张三同学,然后截取字符串
因为这里的header是gb2312,所以指定mb_substr的编码为gb2312
substr直接处理汉字会造成乱码的问题,可以使用mb_substr指定汉字编码方式gb2312

这样就可以截取到到张三
0x4 这不算完




近期评论