投稿 资料上传 提问 搜索
您现在的位置是: 首页 > 问答 > 正文

隧道转发相同请求一个IP

随着网络爬虫的增多,越来越多的人使用代理IP,从之前的传统的API代理到如今的隧道转发爬虫代理。使用代理的方式也多变化了。传统的API代理调用方式也不比多说,相信许多爬虫也都知道如何去调试API接口。其实隧道转发的爬虫代理是大家不常见的使用方式,大家都想知道如何去调用隧道转发的爬虫代理。一般网络爬虫使用Python语言偏多。我们就以python爬虫为例去调用隧道转发的爬虫代理

这里以scrapy例举demo:

#! -*- encoding:utf-8 -*-
import base64
import sys
import random

PY3 = sys.version_info[0] >= 3

def base64ify(bytes_or_str):
if PY3 and isinstance(bytes_or_str, str):
input_bytes = bytes_or_str.encode('utf8')
else:
input_bytes = bytes_or_str

output_bytes = base64.urlsafe_b64encode(input_bytes)
if PY3:
return output_bytes.decode('ascii')
else:
return output_bytes

class ProxyMiddleware(object):
def process_request(self, request, spider):
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)

# 添加验证头
encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

# 设置IP切换头(根据需求)
tunnel = random.randint(1,10000)
request.headers['Proxy-Tunnel'] = str(tunnel)

通过用户名和密码的形式进行身份认证,该认证信息最终会转换为协议头跟随请求一起发出

这里就许多爬虫用户反问,使用传统的API代理去采集数据,可以多个请求在一个IP上发出,那隧道转发的爬虫代理如何实现这种功能,其实这个问题完全不用担心,早在开发隧道转发的爬虫代理时已经解决了这个问题。

Proxy-Tunnel自主切换IP:

该模式适合一些需要登陆、Cookie缓存处理等爬虫需要精确控制IP切换时机的业务。 爬虫程序可以通过设置HTTP头Proxy-Tunnel: 随机数, 当随机数相同时,访问目标网站的代理IP相同。

例如:需要登录,获取数据两个请求在一个IP下,只需对这组请求设置相同Proxy-Tunnel,例如:Proxy-Tunnel: 12345, 该组请求在代理有效期内使用相同的代理IP。

注意:同一时间不同请求组可以设置不同Proxy-Tunnel: 随机数,并发完成数据爬取。

使用相同IP访问HTTPS目标网站:使用Connection: keep-alive和Proxy-Connection: keep-alive方式访问目标网站,代理会确保在一个会话中的所有请求都通过一个IP到达目标网站 2 设置相同Proxy-Tunnel,有些库封装比较高层次,请务必确认向代理发送了该HTTP头。

# 设置IP切换头(根据需求)
tunnel = random.randint(1,10000)
request.headers['Proxy-Tunnel'] = str(tunnel)


问题回复

    友情提示

    你好!遇到什么技术难题了嘛?请点击我要提问,我们免费帮您解答!!!

    Linux中的Screen命令Linux之CentOS系统常用命令web前端开发面试题
    大家都在问