首页 > itarticle > python笔记——初学python拉取图片站爬虫

python笔记——初学python拉取图片站爬虫

admin 11月 11, 2020 0

Author:Anysun
转载请注明出处，谢谢

非常喜欢 http://guo.lu/ 的图片，但是打包下载还得解压，正好在学习python，用它练练手。
写了一个自动拉去最新15篇文章的小爬虫。

[title]

代码


# coding:utf8

__author__ = 'anysun'

import sys
import os
import urllib
import urllib2
import re

#Download Pictures
def (Posts):
    print'Starting Download...'
    image = urllib.URLopener()
    PostNumber = 0
    for var in Posts:
        PostNumber = PostNumber + 1
        PicNumber = 0
        content = urllib2.urlopen(var).read()
        Pics = re.findall('target="_blank" href="(https?://.*?)"><img',content)
        if os.path.exists(os.getcwd()+'/dump/'+GetFilename(var)) == False:
            os.mkdir(os.getcwd()+'/dump/'+GetFilename(var))
        for i in Pics:
            PicNumber = PicNumber + 1
            Filename = GetFilename(i)
            image.retrieve(i,os.getcwd()+'/dump/'+GetFilename(var)+'/'+Filename)
            print '['+bytes(PostNumber)+'/'+bytes(len(Posts))+'] '+'Posts:'+GetFilename(var)+'  ['+bytes(PicNumber)+'/'+bytes(len(Pics))+']'+Filename+'....OK!'



#Get Save Filename
def GetFilename(url):
    Filename = url.split('/')
    Filename = Filename[len(Filename)-1]
    return Filename

def PostsLink():
    content = urllib2.urlopen('http://guo.lu').read()
    Posts = re.findall('href="(https?://guo.lu/.*d)">',content)
    print 'Ok!'
    return Posts

def Init():
    if os.path.exists(os.getcwd()+'/dump') == False:
        os.mkdir(os.getcwd()+'/dump')
        print 'Init Dump Dir....Ok!'
    else:
        print 'Init....Ok!'
    print 'Reading List....'
    Posts = PostsLink()
    downloadPic(Posts)
#main
def main():
    Init()
    #PostsLink()


if __name__ == '__main__':
    main()