python正则爬取某段子网站前20页段子(request库)过程解析

脚本专栏 2024/11/19 佚名

2 0 1

神剑山庄资源网 Design By www.hcban.com

首先还是谷歌浏览器抓包对该网站数据进行分析，结果如下：

该网站地址：http://www.budejie.com/text

该网站数据都是通过html页面进行展示，网站url默认为第一页，http://www.budejie.com/text/2为第二页，以此类推

对网站的内容段子所处位置进行分析，发现段子内容都是在一个 a 标签中

坑还是有的，这是我第一次写的正则：

content_list = re.findall(r'<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+"j-r-list-c-desc">\s*<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+"htmlcode">


import requests
import re
import json

class NeihanSpider(object):
  """内涵段子，百思不得其姐，正则爬取一页的数据"""
  def __init__(self):
    self.temp_url = 'http://www.budejie.com/text/{}' # 网站地址，给页码留个可替换的{}
    self.headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
    }

  def pass_url(self, url): # 发送请求，获取响应
    print(url)
    response = requests.get(url, headers=self.headers)
    return response.content.decode()

  def get_first_page_content_list(self, html_str): # 提取第一页的数据
    content_list = re.findall(r'<div class="j-r-list-c-desc">\s*<a href="/detail-.*" rel="external nofollow" rel="external nofollow" rel="external nofollow" >(.+?)</a>', html_str) # 非贪婪匹配
    return content_list

  def save_content_list(self, content_list):
    with open('neihan.txt', 'a', encoding='utf-8') as f:
      for content in content_list:
        f.write(json.dumps(content, ensure_ascii=False))
        f.write('\n') # 换行
      print('成功保存一页！')

  def run(self): # 实现主要逻辑
    for i in range(20): # 只爬取前20页数据
      # 1. 构造url
      # 2. 发送请求，获取响应
      html_str = self.pass_url(self.temp_url.format(i+1))
      # 3. 提取数据
      content_list = self.get_first_page_content_list(html_str)
      # 4. 保存
      self.save_content_list(content_list)

if __name__ == '__main__':
  neihan = NeihanSpider()
  neihan.run()



以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。


                                
                                    python,正则,爬取,request库 
                                
                                    标签：
                                        python,正则,爬取,request库
                                     

                                神剑山庄资源网 Design By www.hcban.com


                        
                            
                                神剑山庄资源网
                                免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！
                                如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com
                            
                        
                        
                            
                                上一篇
                                django drf框架中的user验证以及JWT拓展的介绍
                            
                            
                                下一篇
                                python中eval与int的区别浅析
                            
                        
                        
                        神剑山庄资源网 Design By www.hcban.com
                        
                            
                                
                                
                                    评论“python正则爬取某段子网站前20页段子(request库)过程解析”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无python正则爬取某段子网站前20页段子(request库)过程解析的评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.hcban.com
                                            
                                                神剑山庄资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            139,976影音资源
                                        
                                        
                                            144,792福利资源
                                        
                                        
                                            21,817软件资源
                                        
                                        
                                            631,128技术资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    李常超 (Lao乾妈)《天生江湖》[320K/MP3][1
                                                
                                                
                                                    
                                                        2024/11/19
                                                        
                                                         67
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    李常超 (Lao乾妈)《天生江湖》[FLAC/分轨][
                                                
                                                
                                                    
                                                        2024/11/19
                                                        
                                                         5
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星《雨果发烧碟二十》UPMAGCD2024[WAV+CU
                                                
                                                
                                                    
                                                        2024/11/19
                                                        
                                                         8
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    刘德丽《赤的疑惑》限量1：1黄金母盘直刻[低
                                                
                                                
                                                    
                                                        2024/11/19
                                                        
                                                         58
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    柏菲·珞叔作品集《金色大厅2》限量开盘母带
                                                
                                                
                                                    
                                                        2024/11/19
                                                        
                                                         28
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            一句话新闻
一口气升级7个大模型SaaS应用，百度智能云：突出一个“开箱即用” - 2024/11/19

这一波大模型产业落地浪潮里，不少企业其实处在 “干瞪眼“的状态。

一种情况是，很多大模型产品看得见却摸不着，在台上一个个遥遥领先——今天Sora技精四座，明天英伟达的机器人又赢得满堂彩，可是到了台下一问：啥时候能用上啊？答曰：遥遥无期。

另一种情况是，企业想用上大模型，却又难免瞻前顾后——既要考虑场景融合，又得兼顾安全性，还要考虑打通现有系统，再加上各种部署成本和繁琐的采购流程……最后只能拂袖：罢了，再等等吧。


            稳了！魔兽国服回归的3条重磅消息！官宣时间再确认！
昨天有一位朋友在大神群里分享，自己亚服账号被封号之后居然弹出了国服的封号信息对话框。这里面让他访问的是一个国服的战网网址，com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后，确实是网易的网址，也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情，因为以前都没有出现这样的情况，现在突然提示跳转到国服战网的网址，是不是说明了简体中文客户端已经开始进行更新了呢？
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年11月19日
                                
                                                    
                        
 
                            李常超 (Lao乾妈)《天生江湖》[320K/MP3][168.84MB]
 
                            李常超 (Lao乾妈)《天生江湖》[FLAC/分轨][633.83MB]
 
                            群星《雨果发烧碟二十》UPMAGCD2024[WAV+CUE]
 
                            刘德丽《赤的疑惑》限量1：1黄金母盘直刻[低速原抓WAV+CUE]
 
                            柏菲·珞叔作品集《金色大厅2》限量开盘母带ORMCD[低速原抓WAV+CUE]

                        
                    
                    
                        2024年11月19日
                    
                    
                        
 
                            Gareth.T《sad songs(Explicit)》[320K/MP3][29.03MB]
 
                            Gareth.T《sad songs(Explicit)》[FLAC/分轨][152.85MB]
 
                            证声音乐图书馆《海风摇曳·盛夏爵士曲》[320K/MP3][63.06MB]
 
                            龚玥《金装龚玥HQCD》头版限量[WAV分轨]
 
                            李小春《吻别》萨克斯演奏经典[原抓WAV+CUE]
 
                            齐秦《辉煌30年24K珍藏版》2CD[WAV+CUE]
 
                            证声音乐图书馆《海风摇曳·盛夏爵士曲》[FLAC/分轨][321.47MB]
 
                            群星 《世界经典汽车音乐》 [WAV分轨][1G]
 
                            冷漠.2011 《冷漠的爱DSD》[WAV+CUE][1.2G]
 
                            陈明《流金岁月精逊【中唱】【WAV+CUE】
 
                            群星《Jazz-Ladies1-2爵士女伶1-2》HQCD/2CD[原抓WAV+CUE]
 
                            群星《美女私房歌》（黑胶）[WAV分轨]
 
                            郑源.2009《试音天碟》24BIT-96KHZ[WAV+CUE][1.2G]
 
                            飞利浦试音碟 《环球群星监听录》SACD香港版[WAV+CUE][1.1G]
 
                            车载音乐最强享受《车载极致女声精选CD》[WAV分轨][1G]

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            神剑山庄资源网 Design By www.hcban.com
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                       神剑山庄资源网 Copyright © 2006~2023 Design by www.hcban.com  手机版