正则

0x1 爬虫过程遇到需要截取到<span id="xhxm">张三同学</span>里面同学的名称

  1.正则解决

  2.通过字符串解决

0x2 通过正则解决

  1.简单解决

  <span id="xhxm">(.)u540cu5b66</span>

 blob.png

  2.零宽断言解决

   >(.)(?=u540cu5b66)

  blob.png

  这里使用零宽度正预测先行断言(?=exp)

  就是找到匹配之前的内容 

  (?<=exp)用来找到匹配之后的东西,称为零宽度正回顾后发断言

0x3 通过mb_substr解决 先匹配张三同学,然后截取字符串

  因为这里的header是gb2312,所以指定mb_substr的编码为gb2312

  substr直接处理汉字会造成乱码的问题,可以使用mb_substr指定汉字编码方式gb2312

 blob.png

  这样就可以截取到到张三

0x4 这不算完