爬取一个页面的所有图片

以上次的亚马逊一个商品页面为例

import requests
import re
import os
from bs4 import BeautifulSoup

def (url):
    try:
        kv = {'user-agent':'Mozilla/5.0'}
        r = requests.get(url, timeout=30, headers = kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "Error"

def savePic(text):
    root = "D://pics//"
    picurls = re.findall('https?://.+?.(?:jpg|png|gif)',text) 
    for url in picurls:
        print(url)
    for url in picurls:
        path = root + url.split('/')[-1]
        try:
            if not os.path.exists(root):
                os.mkdir(root)
            if not os.path.exists(path):
                r = requests.get(url)
                with open(path,'wb') as f:
                    f.write(r.content)
                    f.close()
                    print("保存成功")
            else:
                print("文件已存在")
        except:
            print("爬取失败")


def main():
    url = "https://www.amazon.cn/dp/B079FLYB49"
    text = getHTMLText(url)
    savePic(text)
    print("finish")

main()

笔者比较懒就不解释了,大多数代码其实前面就出现过

爬取一个页面的所有图片

近期文章

近期评论

标签

热门

文章归档

分类目录

功能