html

HTMLParser

Python提供了HTMLParser来非常方便地解析HTML,只需简单几行代码:

1
2
from html.parser import HTMLParser
from html.entities import name2codepoint

feed()方法可以多次调用,也就是不一定一次把整个HTML字符串都塞进去,可以一部分一部分塞进去。

特殊字符有两种,一种是英文表示的 ,一种是数字表示的Ӓ,这两种字符都可以通过Parser解析出来。