爬虫woff字体反爬破解

好久没写爬虫了,最近发现很多网站都出现了woff字体反爬。百度找了一下,发现都要钱,只好默默说一声fuck
那么,只好自己破解了。好的,那么开始。
如果你在抓去某个网站时候,抓下来的文字读不通,打开network你发现如此:
在这里插入图片描述
而网页上的文字是:
在这里插入图片描述
那么,就是加了woff字体反爬,这时候不要慌,慢慢来。
首先找到你要抓的网页,打开network,找到
在这里插入图片描述
找到woff字体文件,然后转换成xml文件,转换代码是`

#encoding: utf-8
from fontTools.ttLib import TTFont

font = TTFont(r'youself.woff')
font.saveXML(r'ojbk.xml')
复制代码

转换出来后,你会发现xml文件类似如下:
在这里插入图片描述
你会发现,
在这里插入图片描述
这些不懂的东东,在xml里面会找到对应的内容,好了,那么可以开始破解了。
在这里插入图片描述
把你xml里面的内容随便拿出来一个,通过python的转码,就可以转成文字,大功告成。
后续的文字匹配就不用我说了吧。