1、GET方式直接抓取,需要参数拼在参数中
import urllib2
content = urllib2.urlopen(url).read()
这里的url可以是很多中协议,具体参考官方文档
2、POST方式抓取数据,参数可以在url中,也可以封装中请求中
import urllib2, urllib
data = urllib.urlencode({'title':'this is title', 'body':'this is body'})
request = urllib2.Request(url, data, headers)
result = urllib2.urlopen(request).read()
3、登录,并缓存Cookie
import urllib2, urllib, cookielib
cookiejar = cookielib.LWPCookieJar()
url_opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
request = urllib2.Request(url)
data = {'username' : name, 'password' : pw}
login_data = urllib.urlencode(data)
response = url_opener.open(request, login_data)
此时,cookie已经被缓存到opener中了,之后有两种用法,一种是将opener设置到urllib2中作为全局的设置,这样就可以在任何地方使用urllib2获取url,另外是直接使用opener.open()来抓取数据,如下,第一种方式方便,第二种方式可以个性化的设置,比如创建多个opener或者设置代理等等
1、urllib2.install_opener(opener)
2、url_opener.open(url)
分享到:
相关推荐
主要介绍了Python urllib、urllib2、httplib抓取网页代码实例,本文直接给出demo代码,代码中包含详细注释,需要的朋友可以参考下
在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。 它以urlopen函数的形式提供了一个非常简单的接口。 最简单的urllib2的应用代码只需要四行。 ...
python urllib or requests模块模拟浏览器获取网页内容
在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档:https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2在...
本文实例讲述了Python使用正则表达式抓取网页图片的方法。分享给大家供大家参考,具体如下: #!/usr/bin/python import re import urllib #获取网页信息 def getHtml(url): page = urllib.urlopen(url) ...
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。 ...
主要介绍了Python使用urllib2模块抓取HTML页面资源的实例分享,将要抓取的页面地址写在单独的规则列表中方便组织和重复使用,需要的朋友可以参考下
对于中文的参数如果不进行编码的话,python的urllib2直接处理会报错,我们可以先将中文转换成utf- 8编码,然后使用urllib2.quote方法对参数进行url编码后传递。 content = u'你好 sharejs.com' content = content....
urllib2使用代理ip和改变header打开网页,proxy和headers。
本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程 首先,我们需要明确一下Python抓取网页数据的基本流程。通常情况下,我们需要完成以下三个步骤: (1)发送HTTP请求获取网页数据...
此资源是一个基于Python的爬虫脚本,利用urllib库抓取指定贴吧的指定页数据,并将抓取到的内容保存到本地文件中。该脚本可以帮助用户快速获取贴吧中的帖子标题、内容、发布时间等信息,并可以用于数据分析、内容提取...
文章目录python爬虫:基本库(一)urllib使用urllib发送请求1.urlopen()添加data(附加数据)参数添加timeout(超时时间)参数2.Request()Request参数高级用法1.验证2.代理3.Cookies从网站中获取Cookies保存Cookies处理...
使用urllib基本库获取苏州公交线路信息的HTML源代码。 使用BeautifulSoup解析库完成苏州公交线路相关信息的获取。 【实验目标】 知道urllib基本库和BeautifulSoup解析库的使用方法 学会使用urllib基本库和...
在python中正是使用urllib2这个组件来抓取网页的。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。通过下面的代码简单感受一下urllib2的功能; ...
本文实例讲述了Python实现抓取网页生成Excel文件的方法。分享给大家供大家参考,具体如下: Python抓网页,主要用到了PyQuery,这个跟jQuery用法一样,超级给力 示例代码如下: #-*- encoding:utf-8 -*- import sys...
本文实例讲述了python通过urllib2获取带有中文参数url内容的方法。分享给大家供大家参考。具体如下: 对于中文的参数如果不进行编码的话,python的urllib2直接处理会报错,我们可以先将中文转换成utf-8编码,然后...
主要介绍了Python的urllib模块、urllib2模块批量进行网页下载文件,就是一个简单的从网页抓取数据、下载文件的小程序,需要的可以了解一下。
本文实例讲述了python使用自定义user-agent抓取网页的方法。分享给大家供大家参考。具体如下: 下面python代码通过urllib2抓取指定的url的内容,并且使用自定义的user-agent,可防止网站屏蔽采集器 import urllib2 ...