Python爬虫实现网页信息抓取功能示例【URL与正则模块】

脚本专栏 2024/10/3 佚名

2 0 1

神剑山庄资源网 Design By www.hcban.com

本文实例讲述了Python爬虫实现网页信息抓取功能。分享给大家供大家参考，具体如下：

首先实现关于网页解析、读取等操作我们要用到以下几个模块

import urllib
import urllib2
import re

我们可以尝试一下用readline方法读某个网站，比如说百度

def test():
  f=urllib.urlopen('http://www.baidu.com')
  while True:
   firstLine=f.readline()
   print firstLine

下面我们说一下如何实现网页信息的抓取，比如说百度贴吧

我们大概要做几件事情：

首先获取网页及其代码，这里我们要实现多页，即其网址会改变，我们传递一个页数

  def getPage(self,pageNum):
     try:
        url=self.baseURL+self.seeLZ+'&pn='+str(pageNum)
        #创建request对象
        request=urllib2.Request(url)
        response=urllib2.urlopen(request)
        #print 'URL:'+url
        return response.read()
     except Exception,e:
        print e

之后我们要获取小说内容，这里咱们分为标题和正文。标题每页都有，所以我们获取一次就好了。

我们可以点击某网站，按f12查看他的标题标签是如何构造的，比如说百度贴吧是<title>…………

那我们就匹配reg=re.compile(r'<title>(.*"htmlcode">


# -*- coding:utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
#爬虫之网页信息抓取
#需要的函数方法：urllib,re,urllib2
import urllib
import urllib2
import re
#测试函数->读取
#def test():
#   f=urllib.urlopen('http://www.baidu.com')
#   while True:
#     firstLine=f.readline()
#     print firstLine
#针对于百度贴吧获取前十页楼主小说文本内容
class BDTB:
   def __init__(self,baseUrl,seeLZ):
     #成员变量
     self.baseURL=baseUrl
     self.seeLZ='"d_post_content j_d_post_content ">(.*""替换
        i=re.sub(removeAddr,"",i)
        #<br>去除
        i=i.replace('<br>','')
        f.write('\n\n'+i.encode('gbk'))
     f.close()
#调用入口
baseURL='http://tieba.baidu.com/p/4638659116'
bdtb=BDTB(baseURL,1)
print '爬虫正在启动....'.encode('gbk')
#多页
bdtb.Title()
print '抓取标题完毕！'.encode('gbk')
for i in range(1,11):
  print '正在抓取第%02d页'.encode('gbk')%i
  bdtb.Text(i)
print '抓取正文完毕!'.encode('gbk')



PS：这里再为大家提供2款非常方便的正则表达式工具供大家参考使用：
JavaScript正则表达式在线测试工具：

http://tools.jb51.net/regex/javascript
正则表达式在线生成工具：

http://tools.jb51.net/regex/create_reg
更多关于Python相关内容可查看本站专题：《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python Socket编程技巧总结》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。


                                
                                    Python,爬虫,网页信息,抓取,URL,正则,模块 
                                
                                    标签：
                                        Python,爬虫,网页信息,抓取,URL,正则,模块
                                     

                                神剑山庄资源网 Design By www.hcban.com


                        
                            
                                神剑山庄资源网
                                免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！
                                如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com
                            
                        
                        
                            
                                上一篇
                                python实现发送邮件及附件功能
                            
                            
                                下一篇
                                利用python微信库itchat实现微信自动回复功能
                            
                        
                        
                        神剑山庄资源网 Design By www.hcban.com
                        
                            
                                
                                
                                    评论“Python爬虫实现网页信息抓取功能示例【URL与正则模块】”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无Python爬虫实现网页信息抓取功能示例【URL与正则模块】的评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.hcban.com
                                            
                                                神剑山庄资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            139,976影音资源
                                        
                                        
                                            144,792福利资源
                                        
                                        
                                            21,817软件资源
                                        
                                        
                                            631,128技术资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    戴梅君.2011-问签诗【美华】【WAV+CUE】
                                                
                                                
                                                    
                                                        2024/10/3
                                                        
                                                         22
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    李国祥.1995-九五变奏【嘉音】【WAV+CUE】
                                                
                                                
                                                    
                                                        2024/10/3
                                                        
                                                         9
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    许景淳.1992-你来自何方【全美唱片】【WAV+
                                                
                                                
                                                    
                                                        2024/10/3
                                                        
                                                         46
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    石欣卉.2007-剧欣卉集·完整电视剧主题精丫华
                                                
                                                
                                                    
                                                        2024/10/3
                                                        
                                                         77
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    群星.2005-LOVE情歌集VOL.5.2CD【正东】【W
                                                
                                                
                                                    
                                                        2024/10/3
                                                        
                                                         47
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            站点导航
抖音极速版红果短剧哔哩哔哩王者荣耀和平精英腾讯视频爱奇艺QQ音乐咸鱼之王逆水寒三国志战略版梦幻西游金铲铲之战捕鱼大作战原神英雄联盟手游网易云音乐崩坏星穹铁道酷狗音乐蛋仔派对


            P70系列延期，华为新旗舰将在下月发布
3月20日消息，近期博主@数码闲聊站 透露，原定三月份发布的华为新旗舰P70系列延期发布，预计4月份上市。而博主@定焦数码 爆料，华为的P70系列在定位上已经超过了Mate60，成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢？
根据目前爆料的消息来看，华为P70系列将推出三个版本，其中P70和P70 Pro采用了三角形的摄像头模组设计，而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智，但辨识度绝对拉满。
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年10月03日
                                
                                                    
                        
 
                            戴梅君.2011-问签诗【美华】【WAV+CUE】
 
                            李国祥.1995-九五变奏【嘉音】【WAV+CUE】
 
                            许景淳.1992-你来自何方【全美唱片】【WAV+CUE】
 
                            石欣卉.2007-剧欣卉集·完整电视剧主题精丫华纳】【WAV+CUE】
 
                            群星.2005-LOVE情歌集VOL.5.2CD【正东】【WAV+CUE】

                        
                    
                    
                        2024年10月03日
                    
                    
                        
 
                            孙悦.1996-伙伴【正大国际】【ＷAV+CUE】
 
                            纪钧瀚《钢琴阅读时光 雨中书店聆听轻音乐》[FLAC/分轨][399.62MB]
 
                            证声音乐图书馆《走向自然 疗心爵士乐》[320K/MP3][87.4MB]
 
                            证声音乐图书馆《走向自然 疗心爵士乐》[FLAC/分轨][184.94MB]
 
                            陈慧娴.2018-Priscilla-Ism演唱会3CD（2024环球红馆40复刻系列）【环球】【WAV+CUE】
 
                            郑秀文.1999-我应该得到（国）【华纳】【WAV+CUE】
 
                            陈家慧.2011-钢琴酒吧2CD【龙吟唱片】【WAV+CUE】
 
                            证声音乐图书馆《雨季 蓝调吉他 Rainy Blues》[320K/MP3][45.01MB]
 
                            证声音乐图书馆《雨季 蓝调吉他 Rainy Blues》[FLAC/分轨][109.13MB]
 
                            赞多《序章》[320K/MP3][45.54MB]
 
                            许巍.2004-每一刻都是崭新的【步升大风】【WAV+CUE】
 
                            群星.2024-四方馆影视原声带【韶愔音乐】【FLAC分轨】
 
                            陈雷.1997-安锁咧【金圆唱片】【WAV+CUE】
 
                            关淑怡.2013-MY.FAVORITE.SK.3CD【环球】【WAV+CUE】
 
                            Sweety.2006-花言乔语【丰华】【WAV+CUE】

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            神剑山庄资源网 Design By www.hcban.com
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                       神剑山庄资源网 Copyright © 2006~2023 Design by www.hcban.com  手机版