wget 递归爬取网页

wget 递归爬取网站并存在本地

1
2
3
4
5
6
7
8
wget -L 仅跟踪相对链接
wget -r -p -np -k


wget -c -r -p -np -k -X /class/cs224n/reports,/class/cs224n/archive http://web.stanford.edu/class/cs224n/syllabus.html

# reject-regex
wget -c -r -p -np -k --reject-regex="/proj*" http://cs229.stanford.edu/syllabus.html