Python的urllib2的代理设置 - - ITeye博客

`

riching

浏览: 261269 次
性别:
来自: 北京

最近访客更多访客>>

piaoliousihai

wj539h

xwttrenzhe

hzj451210895

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

chlhp： Session Option→选字体（新宋体）→再选Char ...
SecureCRT中文显示乱码的解决方法
Interceptor2013： org.wltea.analyzer.core.IKSegme ...
使用余弦相似性原理计算文本的相似度
renzhengzhi：我的maven版本是3.2.3，也报这个错误
maven com.github.goldin.plugins 报错
riching：君诩逸尘写道我想问下我把.project文件改了以后项目里 ...
MyEclipse buildpath 报错问题的解决方法
君诩逸尘：我想问下我把.project文件改了以后项目里面都报错啊 ...
MyEclipse buildpath 报错问题的解决方法

Python的urllib2的代理设置

博客分类：

python

阅读更多

程序中使用代理的应用场景主要是：爬去有访问频率限制的网站的数据或者用于刷票等
代理的代码很简单，可以和上一篇的cookie、header等一起设置，具体可参考官方api

 proxy_info = "219.232.47.153:80"
 proxy_handler = urllib2.ProxyHandler({"http" : "http://%s/" % proxy_info})
 proxy_opener = urllib2.build_opener(proxy_handler)

 之后
 urllib2.install_opener(proxy_opener)
 或者
 proxy_opener.open(url).read()

分享到：

使用BeautifulSoup解析html页面 | 使用Python的urllib2库抓取网页

2013-11-01 17:58
浏览 2123
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python_urllib3: urllib3 is a python lib 1.线程安全 2.连接池 3.客户端SSL/TLS验证 4.文件分部编码上传 5.协助处理重复请求和HTTP重定位 6.支持压缩编码 7.支持HTTP和SOCKS代理

Python爬虫基础之Urllib库: Python爬虫基础之Urllib库，里面包含一些基础的操作，适合基础学习，包括案例，代理设置等

urllib2使用代理ip和header打开网页: urllib2使用代理ip和改变header打开网页，proxy和headers。

Python urllib、urllib2、httplib抓取网页代码实例: 文档：http://docs.python.org/library/urllib2.html 直接上demo代码了包括：直接拉取，使用Reuqest(post/get),使用代理，cookie,跳转处理 #!/usr/bin/python # -*- coding:utf-8 -*- # urllib2_test.py # author:...

python爬虫：请求页面基本库（一）urllib: 文章目录python爬虫：基本库（一）urllib使用urllib发送请求1.urlopen()添加data(附加数据)参数添加timeout(超时时间)参数2.Request()Request参数高级用法1.验证2.代理3.Cookies从网站中获取Cookies保存Cookies处理...

使用python验证代理ip是否可用的实现方法: 在使用爬虫爬取网络数据时，如果长时间对一个网站进行抓取时可能会遇到IP被封的情况，这种情况可以使用代理更换ip来突破服务器封IP的限制。...import urllib2 import re class TestProxy(object): def __init__

Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理): 我们可以利用urllib来抓取远程的数据进行保存哦，以下是python3 抓取网页资源的多种方法，有需要的可以参考借鉴。 1、最简单 import urllib.request response = urllib.request.urlopen('http://python.org/') ...

零基础写python爬虫之urllib2使用指南: 前面说到了urllib2的简单入门，下面整理了一部分urllib2的使用细节。 1.Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用...

Python爬虫库框架学习及Python高度匿名代理IP: 5.urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。 6.httplib2 – 网络库。 7.RoboBrowser – 一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。 8.MechanicalSoup -一个与...

python爬虫之urllib3的使用示例: Urllib3提供了很多python标准库urllib里所没有的重要特性：线程安全连接池客户端SSL/TLS验证文件分部编码上传协助处理重复请求和HTTP重定位支持压缩编码支持HTTP和SOCKS代理一、get请求 urllib3主要...

urllib代理.py: python新手项目

urllib3-1.26.13.zip 安装包，免费下载: Python 的 urllib3 库是一个用于处理 HTTP 请求和响应的库，它建立在 Python 标准库的 urllib 模块之上，提供了更高级别、更健壮的 API。与标准库中的 urllib 和 urllib2 模块相比，urllib3 提供了更加友好和方便的...

Python使用urllib2获取网络资源实例讲解: urllib2支持获取不同格式的URLs(在URL的”:”前定义的字串,例如：”ftp”是”ftp:python.ort/”的前缀),它们利用它们相关网络协议(例如FTP,HTTP)进行获取。这篇教程关注最广泛的应用–HTTP。对于简单的应用，urlopen...

Python urllib模块urlopen()与urlretrieve()详解: 1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url...参数proxies用于设置代理。urlopen返回一个类文件对象，它提供了如下方法：read() , readline() , readlines() , fileno() , close()

Python爬虫中urllib库的进阶学习: 使用代理IP解决防止反爬设置超时提高爬虫效率解析URL的方法本次将会对这些内容进行详细的分析和讲解。 POST请求 POST是HTTP协议的请求方法之一，也是比较常用到的一种方法，用于向服务器提交数据。博主先介绍...

Python开发中爬虫使用代理proxy抓取网页的方法示例: urllib/urllib2使用代理比较麻烦, 需要先构建一个ProxyHandler的类, 随后将该类用于构建网页打开的opener的类,再在request中安装该opener. 代理格式是”http://127.0.0.1:80″,如果要账号密码是”...

Python设置Socket代理及实现远程摄像头控制的例子: 为python设置socket代理首先,你得下载SocksiPy这个.解压出来之后里面会有一个socks.py文件.然后你可以把这个文件复制到python安装目录里面的Lib\site-packages中.或者把这个文件复制到程序所在的目录中. 然后就可以...

Python3学习urllib的使用方法示例: urllib是python的一个获取url(Uniform Resource Locators,统一资源定址符)了，可以利用它来抓取远程的数据进行保存，本文整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法。 1.基本方法...

Python入门网络爬虫之精华版: 首先，Python中自带urllib及urllib2这两个模块，基本上能满足一般的页面抓取。另外，requests也是非常有用的包，与此类似的，还有httplib2等等。 Requests： import requests response = requests.get(url) ...

Python爬虫设置ip代理过程解析: 1、get方式：如何为爬虫添加ip代理，设置Request header（请求头） import urllib import urllib.request import urllib.parse import random import time from fake_useragent import UserAgent ua = UserAgent() ...

Global site tag (gtag.js) - Google Analytics