实例爬取淘宝某商品的价格信息

实例：爬取淘宝某商品的价格信息
目标：获取淘宝搜索页面的信息，提取其中商品的价格和名称
理解：
1、淘宝搜索接口
2、翻页处理
技术路线：
requests库+re正则表达式

import requests
import re
def getHtmlText(url):
    try:
        r = requests.get(url,timeout=10)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('爬取失败')
def parserPage(ilt,html):
    try:
        plist = re.findall(r'"view_price":"[d.]*"',html)
        tlist = re.findall(r'"raw_title":".*?"',html)
        for i  in  range(len(plist)):
            price = eval(plist[i].split(':')[1])
            title  = eval(tlist[i].split(':')[1])
            ilt.append([title,price])
    except:
        print('有一处解析失败')
def printGoodsList(ilt):
    tplt = "{:4}t{:10}t{:40}"
    print(tplt.format("序号","价格","名称"))
    count = 0
    for m in ilt :
        count = count + 1
        print(tplt.format(count,m[1],m[0]))
def main():
    goods = "iPhone7"
    depth = 2
    start_url = 'https://s.taobao.com/search?q=' + goods
    infoList = []
    for i in range(depth):
        try:
            url = start_url + '&s=' + str(44*i)
            html = getHtmlText(url)
            parserPage(infoList,html)
        except:
            continue
    printGoodsList(infoList)
main()

实例爬取淘宝某商品的价格信息

近期文章

近期评论

标签

热门

文章归档

分类目录

功能