Python使用代理抓取网站图片（多线程）

发表于 6年以前 | 总阅读数：901 次

一、功能说明：
1. 多线程方式抓取代理服务器，并多线程验证代理服务器
ps 代理服务器是从http://www.cnproxy.com/ （测试只选择了8个页面）抓取
2. 抓取一个网站的图片地址，多线程随机取一个代理服务器下载图片
二、实现代码

复制代码 代码如下:

!/usr/bin/env python

coding:utf-8

import urllib2
import re
import threading
import time
import random

rawProxyList = []
checkedProxyList = []
imgurl_list = []

抓取代理网站

portdicts ={'v':"3",'m':"4",'a':"2",'l':"9",'q':"0",'b':"5",'i':"7",'w':"6",'r':"8",'c':"1"}
targets = []
for i in xrange(1,9):
target = r"http://www.cnproxy.com/proxy%d.html" % i
targets.append(target)

print targets

抓取代理服务器正则

p = re.compile(r'''(.+?)(.+?).+?(.+?)''')

获取代理的类

class ProxyGet(threading.Thread):
def init(self,target):
threading.Thread.init(self)
self.target = target

def getProxy(self):  
    print "代理服务器目标网站： " + self.target  
    req = urllib2.urlopen(self.target)  
    result = req.read()  
    #print chardet.detect(result)  
    matchs = p.findall(result)  
    for row in matchs:  
        ip=row[0]  
        port =row[1]  
        port = map(lambda x:portdicts[x],port.split('+'))  
        port = ''.join(port)  
        agent = row[2]  
        addr = row[3].decode("cp936").encode("utf-8")  
        proxy = [ip,port,addr]  
        #print proxy  
        rawProxyList.append(proxy)

def run(self):  
    self.getProxy()

检验代理的类

class ProxyCheck(threading.Thread):
def init(self,proxyList):
threading.Thread.init(self)
self.proxyList = proxyList
self.timeout = 5
self.testUrl = "http://www.baidu.com/"
self.testStr = "030173"

def checkProxy(self):  
    cookies = urllib2.HTTPCookieProcessor()  
    for proxy in self.proxyList:  
        proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(proxy[0],proxy[1])})  
        #print r'http://%s:%s' %(proxy[0],proxy[1])  
        opener = urllib2.build_opener(cookies,proxyHandler)  
        opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]   
        #urllib2.install_opener(opener)  
        t1 = time.time()

        try:  
            #req = urllib2.urlopen("http://www.baidu.com", timeout=self.timeout)  
            req = opener.open(self.testUrl, timeout=self.timeout)  
            #print "urlopen is ok...."  
            result = req.read()  
            #print "read html...."  
            timeused = time.time() - t1  
            pos = result.find(self.testStr)  
            #print "pos is %s" %pos

            if pos > 1:  
                checkedProxyList.append((proxy[0],proxy[1],proxy[2],timeused))  
                #print "ok ip: %s %s %s %s" %(proxy[0],proxy[1],proxy[2],timeused)  
            else:  
                 continue  
        except Exception,e:  
            #print e.message  
            continue

def run(self):  
    self.checkProxy()

获取图片地址函数

def imgurlList(url_home):
global imgurl_list
home_page = urllib2.urlopen(url_home)
url_re = re.compile(r'

')
pic_re = re.compile(r'<img src="(.*?\.\w{3,4})"')
url_list = re.findall(url_re,home_page.read())
for url in url_list:

print url_home+url

    url_page = urllib2.urlopen(url_home+url)  
    for imgurlList in re.findall(pic_re,url_page.read()):  
        imgurl_list.append(imgurlList)

下载图片的类

class getPic(threading.Thread):
def init(self,imgurl_list):
threading.Thread.init(self)
self.imgurl_list = imgurl_list
self.timeout = 5
def downloadimg(self):
for imgurl in self.imgurl_list:
pic_suffix = imgurl.split('.')[-1] #获取图片后缀
pic_name = str(random.randint(0,10000000000))+'.'+pic_suffix
cookies = urllib2.HTTPCookieProcessor()
randomCheckedProxy = random.choice(checkedProxyList) #随机取一组代理服务器
proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(randomCheckedProxy[0],randomCheckedProxy[1])})
opener = urllib2.build_opener(cookies,proxyHandler)
opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]
urllib2.install_opener(opener)
try:
data_img = opener.open(imgurl,timeout=self.timeout)
f = open (pic_name,'wb')
f.write(data_img.read())
f.close()
except:
continue
def run(self):
self.downloadimg()

if name == "main":
getThreads = []
checkThreads = []
imgurlList('http://www.ivsky.com')
getPicThreads = []

对每个目标网站开启一个线程负责抓取代理

for i in range(len(targets)):
t = ProxyGet(targets[i])
getThreads.append(t)

for i in range(len(getThreads)):
getThreads[i].start()

for i in range(len(getThreads)):
getThreads[i].join()

print '.'10+"总共抓取了%s个代理" %len(rawProxyList) +'.'10

开启20个线程负责校验，将抓取到的代理分成20份，每个线程校验一份

for i in range(20):
t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) i:((len(rawProxyList)+19)/20) (i+1)])
checkThreads.append(t)

for i in range(len(checkThreads)):
checkThreads[i].start()

for i in range(len(checkThreads)):
checkThreads[i].join()

print '.'10+"总共有%s个代理通过校验" %len(checkedProxyList) +'.'10

开启20个线程随机取一个代理下载图片

for i in range(20):
t = getPic(imgurl_list[((len(imgurl_list)+19)/20) i:((len(imgurl_list)+19)/20) (i+1)])
getPicThreads.append(t)

for i in range(len(getPicThreads)):
getPicThreads[i].start()

for i in range(len(getPicThreads)):
getPicThreads[i].join()

print '.'10+"总共有%s个图片下载" %len(imgurl_list) +'.'10

代理排序持久化

f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):

print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])

f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))

f.close()

扫码在手机上访问

为您提供高质量的文档

Android插件化方案 6年以前 | 237672次阅读

前端录屏 + 定位源码，帮你快速定位线上 bug 2年以前 | 28243次阅读

飞书里面给链接生成一个预览是怎么做到的？ 3年以前 | 15614次阅读

vscode超好用的代码书签插件Bookmarks 2年以前 | 8811次阅读

raw.githubusercontent.com被污染的解决办法 5年以前 | 8364次阅读

刘强东夫妇：“移民美国”传言被驳斥

博主曝三大运营商，将集体采购百万台华为Mate60系列

ASML CEO警告：出口管制不是可行做法，不要“逼迫中国大陆创新”

抖音中长视频App青桃更名抖音精选，字节再发力对抗B站

威马CDO：中国每百户家庭仅17户有车

研究发现维生素 C 等抗氧化剂会刺激癌症生长和转移

苹果据称正引入3D打印技术，用以生产智能手表的钢质底盘

千万级抖音网红秀才账号被封禁

亚马逊股东起诉公司和贝索斯，称其在购买卫星发射服务时忽视了 SpaceX

苹果上线AppsbyApple网站，以推广自家应用程序

特斯拉美国降价引发投资者不满：“这是短期麻醉剂”

光刻机巨头阿斯麦：拿到许可，继续对华出口

马斯克与库克首次隔空合作：为苹果提供卫星服务

𝕏（推特）调整隐私政策，可拿用户发布的信息训练 AI 模型

荣耀CEO谈华为手机回归：替老同事们高兴，对行业也是好事

AI操控无人机能力超越人类冠军

AI生成的蘑菇科普书存在可致命错误

社交媒体平台𝕏计划收集用户生物识别数据与工作教育经历

国产扫地机器人热销欧洲，国产割草机器人抢占欧洲草坪

罗永浩吐槽iPhone15和14不会有区别，除了序列号变了

Python使用代理抓取网站图片（多线程）

!/usr/bin/env python

coding:utf-8

抓取代理网站

print targets

抓取代理服务器正则

获取代理的类

检验代理的类

获取图片地址函数

print url_home+url

下载图片的类

对每个目标网站开启一个线程负责抓取代理

开启20个线程负责校验，将抓取到的代理分成20份，每个线程校验一份

开启20个线程随机取一个代理下载图片

代理排序持久化

print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])

Python使用代理抓取网站图片（多线程）

!/usr/bin/env python

coding:utf-8

抓取代理网站

print targets

抓取代理服务器正则

获取代理的类

检验代理的类

获取图片地址函数

print url_home+url

下载图片的类

对每个目标网站开启一个线程负责抓取代理

开启20个线程负责校验，将抓取到的代理分成20份，每个线程校验一份

开启20个线程随机取一个代理下载图片

代理排序持久化

print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])

登录后可以享受更多权益