视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
使用Python编写爬虫的基本模块及框架使用指南
2020-11-27 14:35:10 责编:小采
文档


基本模块
python爬虫,web spider。爬取网站获取网页数据,并进行分析提取。

基本模块使用的是 urllib,urllib2,re,等模块

基本用法,例子:

(1)进行基本GET请求,获取网页html

#!coding=utf-8
import urllib
import urllib2
 
url = 'http://www.baidu.com/'
# 获取请求
request = urllib2.Request(url)
try:
 # 根据request,得到返回response
 response = urllib2.urlopen(request)
except urllib2.HTTPError, e:
 if hasattr(e, 'reason'):
 print e.reason
# 读取response的body
html = response.read()
# 读取response的headers
headers = response.info()


(2)表单提交

#!coding=utf-8
import urllib2
import urllib
 
post_url = ''
 
post_data = urllib.urlencode({
 'username': 'username',
 'password': 'password',
})
 
post_headers = {
 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:31.0) Gecko/20100101 Firefox/31.0',
}
 
request = urllib2.Request(
 url=post_url,
 data=post_data,
 headers=post_headers,
)
 
response = urllib2.urlopen(request)
 
html = response.read()

(3)

#!coding=utf-8
 
import urllib2
import re
 
page_num = 1
url = 'http://tieba.baidu.com/p/3238280985?see_lz=1&pn='+str(page_num)
myPage = urllib2.urlopen(url).read().decode('gbk')
 
myRe = re.compile(r'class="d_post_content j_d_post_content ">(.*?)', re.DOTALL)
items = myRe.findall(myPage)
 
f = open('baidu.txt', 'a+')
 
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
 
i = 0
texts = []
for item in items:
 i += 1
 print i
 text = item.replace('
', '') text.replace(' ', '').replace(' ', '') + ' ' print text f.write(text) f.close()

(4)

#coding:utf-8
'''
 模拟登陆163邮箱并下载邮件内容
 
'''
import urllib
import urllib2
import cookielib
import re
import time
import json
 
class Email163:
 header = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
 user = ''
 cookie = None
 sid = None
 mailBaseUrl='http://twebmail.mail.163.com'
 
 def __init__(self):
 self.cookie = cookielib.CookieJar()
 cookiePro = urllib2.HTTPCookieProcessor(self.cookie)
 urllib2.install_opener(urllib2.build_opener(cookiePro))
 
 def login(self,user,pwd):
 '''
 登录
 '''
 postdata = urllib.urlencode({
 'username':user,
 'password':pwd,
 'type':1
 })
 #注意版本不同,登录URL也不同
 req = urllib2.Request(
 url='https://ssl.mail.163.com/entry/coremail/fcg/ntesdoor2?funcid=loginone&language=-1&passtype=1&iframe=1&product=mail163&from=web&df=email163&race=-2_45_-2_hz&module=&uid='+user+'&style=10&net=t&skinid=null',
 data=postdata,
 headers=self.header,
 )
 res = str(urllib2.urlopen(req).read())
 #print res
 patt = re.compile('sid=([^"]+)',re.I)
 patt = patt.search(res)
 
 uname = user.split('@')[0]
 self.user = user
 if patt:
 self.sid = patt.group(1).strip()
 #print self.sid
 print '%s Login Successful.....'%(uname)
 else:
 print '%s Login failed....'%(uname)
 
 
 def getInBox(self):
 '''
 获取邮箱列表
 '''
 print '
Get mail lists.....
'
 sid = self.sid
 url = self.mailBaseUrl+'/jy3/list/list.do?sid='+sid+'&fid=1&fr=folder'
 res = urllib2.urlopen(url).read()
 #获取邮件列表
 mailList = []
 patt = re.compile(']+>.*?href="([^"]+)"[^>]+>(.*?).*?]+>.*?href="[^>]+>(.*?)',re.I|re.S)
 patt = patt.findall(res)
 if patt==None:
 return mailList
 
 for i in patt:
 line = {
 'from':i[1].decode('utf8'),
 'url':self.mailBaseUrl+i[0],
 'subject':i[2].decode('utf8')
 }
 mailList.append(line)
 
 return mailList
 
 
 def getMailMsg(self,url):
 '''
 下载邮件内容
 '''
 content=''
 print '
 Download.....%s
'%(url)
 res = urllib2.urlopen(url).read()
 
 patt = re.compile('contentURL:"([^"]+)"',re.I)
 patt = patt.search(res)
 if patt==None:
 return content
 url = '%s%s'%(self.mailBaseUrl,patt.group(1))
 time.sleep(1)
 res = urllib2.urlopen(url).read()
 Djson = json.JSONDecoder(encoding='utf8')
 jsonRes = Djson.decode(res)
 if 'resultVar' in jsonRes:
 content = Djson.decode(res)['resultVar']
 time.sleep(3)
 return content
 
 
'''
 Demon
'''
#初始化
mail163 = Email163()
#登录
mail163.login('lpe234@163.com','9448186')
time.sleep(2)
 
#获取收件箱
elist = mail163.getInBox()
 
#获取邮件内容
for i in elist:
 print '主题:%s 来自:%s 内容:
%s'%(i['subject'].encode('utf8'),i['from'].encode('utf8'),mail163.getMailMsg(i['url']).encode('utf8'))

(5)需要登陆的情况

#1 cookie的处理
 
import urllib2, cookielib
cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)
content = urllib2.urlopen('http://XXXX').read()
 
#2 用代理和cookie
 
opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)
 
#3 表单的处理
 
import urllib
postdata=urllib.urlencode({
 'username':'XXXXX',
 'password':'XXXXX',
 'continueURI':'http://www.verycd.com/',
 'fk':fk,
 'login_submit':'登录'
})
 
req = urllib2.Request(
 url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',
 data = postdata
)
result = urllib2.urlopen(req).read()
 
#4 伪装成浏览器访问
 
headers = {
 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
}
req = urllib2.Request(
 url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',
 data = postdata,
 headers = headers
)
 
#5 反”反盗链”
 
headers = {
 'Referer':'http://www.cnbeta.com/articles'
}

(6)多线程

from threading import Thread
from Queue import Queue
from time import sleep
#q是任务队列
#NUM是并发线程总数
#JOBS是有多少任务
q = Queue()
NUM = 2
JOBS = 10
#具体的处理函数,负责处理单个任务
def do_somthing_using(arguments):
 print arguments
#这个是工作进程,负责不断从队列取数据并处理
def working():
 while True:
 arguments = q.get()
 do_somthing_using(arguments)
 sleep(1)
 q.task_done()
#fork NUM个线程等待队列
for i in range(NUM):
 t = Thread(target=working)
 t.setDaemon(True)
 t.start()
#把JOBS排入队列
for i in range(JOBS):
 q.put(i)
#等待所有JOBS完成
q.join()

scrapy框架
Scrapy框架,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

刚开始学习这个框架。不太好评论。只是感觉这个框架有些Java的感觉,需要太多的其他模块的支持。

(一)创建 scrapy 项目

# 使用 scrapy startproject scrapy_test
├── scrapy_test
│ ├── scrapy.cfg
│ └── scrapy_test
│ ├── __init__.py
│ ├── items.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ ├── __init__.py
# 进行创建 scrapy 项目

(二)说明

scrapy.cfg: 项目配置文件
items.py: 需要提取的数据结构定义文件
pipelines.py:管道定义,用来对items里面提取的数据做进一步处理,如保存等
settings.py: 爬虫配置文件
spiders: 放置spider的目录
(三)依赖包

依赖包比较麻烦。

# python-dev 包的安装
apt-get install python-dev
 
# twisted, w3lib, six, queuelib, cssselect, libxslt
 
pip install w3lib
pip install twisted
pip install lxml
apt-get install libxml2-dev libxslt-dev 
apt-get install python-lxml
pip install cssselect 
pip install pyOpenSSL 
sudo pip install service_identity
 
# 安装好之后,便可使用 scrapy startproject test 进行创建项目

(四)抓取实例。
(1)创建scrapy项目

dizzy@dizzy-pc:~/Python/spit$ scrapy startproject itzhaopin
New Scrapy project 'itzhaopin' created in:
 /home/dizzy/Python/spit/itzhaopin
 
You can start your first spider with:
 cd itzhaopin
 scrapy genspider example example.com
dizzy@dizzy-pc:~/Python/spit$ 
 
dizzy@dizzy-pc:~/Python/spit$ cd itzhaopin
dizzy@dizzy-pc:~/Python/spit/itzhaopin$ tree
.
├── itzhaopin
│ ├── __init__.py
│ ├── items.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ └── __init__.py
└── scrapy.cfg
 
# scrapy.cfg: 项http://my.oschina.net/lpe234/admin/new-blog目配置文件
# items.py: 需要提取的数据结构定义文件
# pipelines.py:管道定义,用来对items里面提取的数据做进一步处理,如保存等
# settings.py: 爬虫配置文件
# spiders: 放置spider的目录

(2)定义要抓取的数据结构 items.py

from scrapy.item import Item, Field
# 定义我们要抓取的数据
class TencentItem(Item):
 name = Field() # 职位名称
 catalog = Field() # 职位类别
 workLocation = Field() # 工作地点
 recruitNumber = Field() # 招聘人数
 detailLink = Field() # 职位详情链接
 publishTime = Field() # 发布时间

(3)实现Spider类

  • Spider是继承自 scarpy.contrib.spiders.CrawlSpider 的Python类,有3个必须定义的成员。
  • name : 名称,spider的标识。
  • start_urls : 一个url列表,spider从这些网页开始抓取
  • parse() : 一个方法。当start_urls里面的网页抓取下来之后需要调用这个方法来解析网页内容,同时需要返回下一个需要抓取的网页,或者返回items列表。
  • 在spiders目录下面新建一个spider,tencent_spider.py :

    #coding=utf-8
     
    from scrapy.spider import BaseSpider
     
     
    class DmozSpider(BaseSpider):
     name = 'dmoz'
     allowed_domains = ['dmoz.org']
     start_urls = [
     'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/',
     'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/'
     ]
     
     def parse(self, response):
     filename = response.url.split('/')[-2]
     open(filename, 'wb').write(response.info)
    

    这个简单一些。 使用scrapy crawl dmoz # 即可运行spider

    下载本文
    显示全文
    专题