视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
基python实现多线程网页爬虫
2020-11-27 14:34:48 责编:小采
文档


一般来说,使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里,让它来执行. 另一种是直接从Thread继承,创建一个新的class,把线程执行的代码放到这个新的class里。

实现多线程网页爬虫,采用了多线程和锁机制,实现了广度优先算法的网页爬虫。

先给大家简单介绍下我的实现思路:

对于一个网络爬虫,如果要按广度遍历的方式下载,它是这样的:

1.从给定的入口网址把第一个网页下载下来

2.从第一个网页中提取出所有新的网页地址,放入下载列表中

3.按下载列表中的地址,下载所有新的网页

4.从所有新的网页中找出没有下载过的网页地址,更新下载列表

5.重复3、4两步,直到更新后的下载列表为空表时停止

python代码如下:

#!/usr/bin/env python
#coding=utf-8
import threading
import urllib
import re
import time
g_mutex=threading.Condition()
g_pages=[] #从中解析所有url链接
g_queueURL=[] #等待爬取的url链接列表
g_existURL=[] #已经爬取过的url链接列表
g_failedURL=[] #下载失败的url链接列表
g_totalcount=0 #下载过的页面数
class Crawler:
 def __init__(self,crawlername,url,threadnum):
 self.crawlername=crawlername
 self.url=url
 self.threadnum=threadnum
 self.threadpool=[]
 self.logfile=file("log.txt",'w')
 def craw(self):
 global g_queueURL
 g_queueURL.append(url) 
 depth=0
 print self.crawlername+" 启动..."
 while(len(g_queueURL)!=0):
 depth+=1
 print 'Searching depth ',depth,'...

'
 self.logfile.write("URL:"+g_queueURL[0]+"........")
 self.downloadAll()
 self.updateQueueURL()
 content='
>>>Depth '+str(depth)+':
'
 self.logfile.write(content)
 i=0
 while i'+g_queueURL[i]+'
'
 self.logfile.write(content)
 i+=1
 def downloadAll(self):
 global g_queueURL
 global g_totalcount
 i=0
 while i

以上代码就是给大家分享的基python实现多线程网页爬虫,希望大家喜欢。

下载本文
显示全文
专题