代理ip

整理使用过程，方便以后学习。（现在抓ip的网站已经关闭，by20200405），有时候爬虫需要用到代理ip，将之前的脚本重新整理了一下。

# !/usr/bin/env python

import re
import sys
import requests

reload(sys)
sys.setdefaultencoding('utf-8')
requests.packages.urllib3.disable_warnings()

HEADER = {'Connection': 'keep-alive',
          'Cache-Control': 'max-age=0',
          'Upgrade-Insecure-Requests': '1',
          'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko)',
          'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
          'Accept-Encoding': 'gzip, deflate, sdch',
          'Accept-Language': 'zh-CN,zh;q=0.8',
          }

def (func):
    def decorate(*args, **kwargs):
        try:
            return func(*args, **kwargs)
        except Exception as e:
            print u"sorry, 抓取出错。错误原因:"
            print e

    return decorate

def getHtmlTree(url, **kwargs):
    import requests
    from lxml import etree
    header = {'Connection': 'keep-alive',
              'Cache-Control': 'max-age=0',
              'Upgrade-Insecure-Requests': '1',
              'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko)',
              'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
              'Accept-Encoding': 'gzip, deflate, sdch',
              'Accept-Language': 'zh-CN,zh;q=0.8',
              }
    try:
        html = requests.get(url=url, headers=header, timeout=30).content
    except:
        pass
    return etree.HTML(html)

class GetFreeProxy(object):
    def __init__(self):
        pass


    @robustCrawl
    def freeProxyFirst(page=10):
        """
        抓取快代理IP http://www.kuaidaili.com/
        """
        url_list = ('http://www.kuaidaili.com/proxylist/{page}/'.format(page=page) for page in range(1, page + 1))
        for url in url_list:
            tree = getHtmlTree(url)
            proxy_list = tree.xpath('.//div[@id="index_free_list"]//tbody/tr')
            for proxy in proxy_list:
                yield ':'.join(proxy.xpath('./td/text()')[0:2])


    @robustCrawl
    def freeProxySecond(proxy_number=100):
        """
        抓取代理66 http://www.66ip.cn/
        """
        url = "http://m.66ip.cn/mo.php?sxb=&tqsl={}&port=&export=&ktip=&sxa=&submit=%CC%E1++%C8%A1&textarea=".format(
            proxy_number)
        html = requests.get(url, headers=HEADER).content
        for proxy in re.findall(r'd{1,3}.d{1,3}.d{1,3}.d{1,3}:d{1,5}', html):
            yield proxy


    @robustCrawl
    def freeProxyThird():
        """
        抓取西刺代理 http://api.xicidaili.com/free2016.txt
        """
        url_list = ['http://www.xicidaili.com/nn',  # 高匿
                    'http://www.xicidaili.com/nt',  # 透明
                    ]
        for each_url in url_list:
            tree = getHtmlTree(each_url)
            proxy_list = tree.xpath('.//table[@id="ip_list"]//tr')
            for proxy in proxy_list:
                yield ':'.join(proxy.xpath('./td/text()')[0:2])


    @robustCrawl
    def freeProxyFourth(page=10):
        """
        抓取酷伯伯代理 http://www.coobobo.com/free-http-proxy
        """
        url_list = ("http://www.coobobo.com/free-http-proxy/{page}/".format(page=page) for page in range(1, page+1))
        for url in url_list:
            tree = getHtmlTree(url)
            proxy_list = tree.xpath('.//div[@class="col-md-12"]//tbody/tr')
            for proxy in proxy_list:
                prot =  proxy.xpath('./td/text()')[1:2][0]
                ip = proxy.xpath('./td/script/text()')[0]
                ip = ".".join(re.findall('d+',ip))
                yield "{ip}:{prot}".format(ip=ip, prot=prot)


    @robustCrawl
    def freeProxyFifth(page=10):
        """
        抓取开心代理 http://www.kxdaili.com/dailiip/1/1.html#ip
        """
        url_list = ("http://www.kxdaili.com/dailiip/1/{page}.html#ip".format(page=page) for page in range(1, page+1))
        for url in url_list:
            tree = getHtmlTree(url)
            proxy_list = tree.xpath('.//table[@class="ui table segment"]//tbody/tr')
            for proxy in proxy_list:
                yield ":".join(proxy.xpath('./td/text()')[0:2])

    @staticmethod
    @robustCrawl
    def freeProxySixth():
        """
        抓取ip181  http://www.ip181.com/
        """
        url = "http://www.ip181.com/"
        tree = getHtmlTree(url)
        proxy_list = tree.xpath('.//div[@class="col-md-12"]//tbody/tr')
        for proxy in proxy_list[1:]:
            yield ":".join(proxy.xpath('./td/text()')[:2])



if __name__ == '__main__':
    gg = GetFreeProxy()
    #for x in gg.freeProxyFirst():
    #    print x

    #for y in gg.freeProxySecond():
    #   print y

    #for z in gg.freeProxyThird(1):
    #    print z

    #for o in gg.freeProxyFourth():
    #    print o

    #for p in gg.freeProxyFifth(1):
    #    print p

    for q in gg.freeProxySixth():
        print q
近期文章

近期评论

标签

热门

文章归档

分类目录

功能