神剑山庄资源网 Design By www.hcban.com
说明:糗事百科段子的爬取,采用了队列和多线程的方式,其中关键点是Queue.task_done()、Queue.join(),保证了线程的有序进行。
代码如下
import requests from lxml import etree import json from queue import Queue import threading class Qsbk(object): def __init__(self): self.headers = { "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36", "Referer": "https://www.qiushibaike.com/" } # 实例化三个队列,用来存放内容 self.url_queue = Queue() self.html_queue = Queue() self.content_queue = Queue() def get_total_url(self): """ 获取了所有的页面url,并且返回url_list return:url_list 现在放入url_queue队列中保存 """ url_temp = "https://www.qiushibaike.com/text/page/{}/" url_list = list() for i in range(1,13): # url_list.append(url_temp.format(i)) # 将生成的url放入url_queue队列 self.url_queue.put(url_temp.format(i)) def parse_url(self): """ 发送请求,获取响应,同时etree处理html """ while self.url_queue.not_empty: # 判断非空,为空时结束循环 # 从队列中取出一个url url = self.url_queue.get() print("parsing url:",url) # 发送请求 response = requests.get(url,headers=self.headers,timeout=10) # 获取html字符串 html = response.content.decode() # 获取element类型的html html = etree.HTML(html) # 将生成的element对象放入html_queue队列 self.html_queue.put(html) # Queue.task_done() 在完成一项工作之后,Queue.task_done()函数向任务已经完成的队列发送一个信号 self.url_queue.task_done() def get_content(self): """ 解析网页内容,获取想要的信息 """ while self.html_queue.not_empty: items = list() html = self.html_queue.get() total_div = html.xpath("//div[@class='col1 old-style-col1']/div") for i in total_div: author_img = i.xpath(".//a[@rel='nofollow']/img/@src") author_img = "https"+author_img[0] if len(author_img)>0 else None author_name = i.xpath(".//a[@rel='nofollow']/img/@alt") author_name = author_name[0] if len(author_name)>0 else None author_href = i.xpath("./a/@href") author_href = "https://www.qiushibaike.com/"+author_href[0] if len(author_href)>0 else None author_gender = i.xpath("./div[1]/div/@class") author_gender = author_gender[0].split(" ")[-1].replace("Icon","").strip() if len(author_gender)>0 else None author_age = i.xpath("./div[1]/div/text()") author_age = author_age[0] if len(author_age)>0 else None content = i.xpath("./a/div/span/text()") content = content[0].strip() if len(content)>0 else None content_vote = i.xpath("./div[@class='stats']/span[@class='stats-vote']/i/text()") content_vote = content_vote[0] if len(content_vote)>0 else None content_comment_numbers = i.xpath("./div[@class='stats']/span[@class='stats-comments']/a/i/text()") content_comment_numbers = content_comment_numbers[0] if len(content_comment_numbers)>0 else None item = { "author_name":author_name, "author_age" :author_age, "author_gender":author_gender, "author_img":author_img, "author_href":author_href, "content":content, "content_vote":content_vote, "content_comment_numbers":content_comment_numbers, } items.append(item) self.content_queue.put(items) # task_done的时候,队列计数减一 self.html_queue.task_done() def save_items(self): """ 保存items """ while self.content_queue.not_empty: items = self.content_queue.get() with open("quishibaike.txt",'a',encoding='utf-8') as f: for i in items: json.dump(i,f,ensure_ascii=False,indent=2) self.content_queue.task_done() def run(self): # 获取url list thread_list = list() thread_url = threading.Thread(target=self.get_total_url) thread_list.append(thread_url) # 发送网络请求 for i in range(10): thread_parse = threading.Thread(target=self.parse_url) thread_list.append(thread_parse) # 提取数据 thread_get_content = threading.Thread(target=self.get_content) thread_list.append(thread_get_content) # 保存 thread_save = threading.Thread(target=self.save_items) thread_list.append(thread_save) for t in thread_list: # 为每个进程设置为后台进程,效果是主进程退出子进程也会退出 t.setDaemon(True) t.start() # 让主线程等待,所有的队列为空的时候才能退出 self.url_queue.join() self.html_queue.join() self.content_queue.join() if __name__=="__main__": obj = Qsbk() obj.run()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
标签:
Python,队列,多线程爬虫
神剑山庄资源网 Design By www.hcban.com
神剑山庄资源网
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件!
如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
神剑山庄资源网 Design By www.hcban.com
暂无Python如何使用队列方式实现多线程爬虫的评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
2024年11月17日
2024年11月17日
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】