Python爬虫获取豆瓣电影并写入excel

脚本专栏 2024/11/17 佚名

2 0 1

神剑山庄资源网 Design By www.hcban.com

豆瓣电影排行榜前250 分为10页，第一页的url为https://movie.douban.com/top250,但实际上应该是https://movie.douban.com/top250"_blank" href="https://movie.douban.com/top250" rel="external nofollow" >https://movie.douban.com/top250"codetitle">复制代码代码如下:for i in range(0, 250, 25): print(i)

分析完页面组成后，开始获取页面，直接request.get()发现没有返回任何东西，输出一下响应码

url = 'https://movie.douban.com/top250"text-align: center">




import requests
import lxml.etree as etree
url = 'https://movie.douban.com/top250"/html/body/div[3]/div[1]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]")
print(name)


但是直接这样子，解析到的是这样的结果
[<Element span at 0x20b2f0cc488>]

关于这东西是什么，有文章写的很好：https://www.jb51.net/article/132145.htm
这里我直接写解决部分，在使用xpath解析时，后面加上/text()
name = html.xpath("/html/body/div[3]/div[1]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()")
解决后，再使用xpath finder插件，一步一步获取到电影所有数据
最后把这个写在函数里，外面再套上一开始说的循环，就OK了


 # -*- coding: utf-8 -*-

import requests
import lxml.etree as etree


def get_source(page):
  url = 'https://movie.douban.com/top250"/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[1]/a/span[1]/text()".format(i))
    info = html.xpath("/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[2]/p[1]/text()".format(i))
    score = html.xpath(
      "/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[2]/div/span[2]/text()".format(i))
    slogan = html.xpath(
      "/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[2]/p[2]/span/text()".format(i))
    print(name[0])
    print(info[0].replace(' ', ''))
    print(info[1].replace(' ', ''))
    print(score[0])
    print(slogan[0])


n = 1
for i in range(0, 250, 25):
  print('第%d页' % n)
  n += 1
  get_source(i)
  print('==========================================')


在定位时，发现有4部电影介绍没有slogan，导致获取到的信息为空列表，也就导致了list.append()会出错。所以我加上了几个差错处理，解决方式可能有点傻，如果有更好的解决办法，洗耳恭听
代码在最后可以看到

EXCEL保存部分
这里我用的xlwt

book = xlwt.Workbook()
sheet = book.add_sheet(u'sheetname', cell_overwrite_ok=True)

创建一个sheet表单。
数据保存到一个大列表中，列表嵌套列表
再通过循环把数据导入到excel表单中


r = 1
  for i in LIST: #有10页
    for j in i:  #有25条数据
      c = 2
      for x in j:    #有5组数据
        print(x)
        sheet.write(r, c, x)
        c += 1
      r += 1


最后在保存一下
book.save(r'douban.xls')
注意文件后缀要用xls，用xlsx会导致文件打不开
然后就大功告成了
打开文件，手动加入排名，等部分信息（这些也可以在程序里完成，我嫌麻烦，就没写，直接手动来的快）

前面的"htmlcode">

# -*- coding: utf-8 -*-

import requests
import lxml.etree as etree
import xlwt

def get_source(page):
  List = []
  url = 'https://movie.douban.com/top250"/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[1]/a/span[1]/text()".format(i))
    info = html.xpath("/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[2]/p[1]/text()".format(i))
    score = html.xpath(
      "/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[2]/div/span[2]/text()".format(i))
    slogan = html.xpath(
      "/html/body/div[3]/div[1]/div/div[1]/ol/li[{}]/div/div[2]/div[2]/p[2]/span/text()".format(i))
    try:
      list.append(name[0])
    except:
      list.append('----')
    try:
      list.append(info[0].replace(' ', '').replace('\n', ''))
    except:
      list.append('----')
    try:
      list.append(info[1].replace(' ', '').replace('\n', ''))
    except:
      list.append('----')
    try:
      list.append(score[0])
    except:
      list.append('----')
    try:
      list.append(slogan[0])
    except:
      list.append('----')

    List.append(list)

  return List


n = 1
LIST = []
for i in range(0, 250, 25):
  print('第{}页'.format(n))
  n += 1
  List = get_source(i)
  LIST.append(List)


def excel_write(LIST):
  book = xlwt.Workbook()
  sheet = book.add_sheet(u'sheetname', cell_overwrite_ok=True)
  r = 1
  for i in LIST: #有10页
    for j in i:  #有25条数据
      c = 2
      for x in j:    #有5组数据
        print(x)
        sheet.write(r, c, x)
        c += 1
      r += 1

  book.save(r'douban1.xls')  #保存代码
excel_write(LIST)  


以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。


                                
                                    python,爬虫,豆瓣电影,写入excel 
                                
                                    标签：
                                        python,爬虫,豆瓣电影,写入excel
                                     

                                神剑山庄资源网 Design By www.hcban.com


                        
                            
                                神剑山庄资源网
                                免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！
                                如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com
                            
                        
                        
                            
                                上一篇
                                python 使用elasticsearch 实现翻页的三种方式
                            
                            
                                下一篇
                                深入浅析Python代码规范性检测
                            
                        
                        
                        神剑山庄资源网 Design By www.hcban.com
                        
                            
                                
                                
                                    评论“Python爬虫获取豆瓣电影并写入excel”
                                
                            
                            
                                
                                    
                                        
                                            
                                                
                                                    
                                                
                                                
                                                    
                                                
                                                
                                                    
                                                    
                                                    
                                                
                                                
                                                     再想想
                                                    
                                                    
                                                    
                                                    
                                                    
                                                
                                            
                                            
                                        
                                    
                                    
                                    
                                        暂无Python爬虫获取豆瓣电影并写入excel的评论...


                    
                        
                            
                                
                                    
                                        
                                    
                                    
                                        
                                            
                                        
                                    
                                
                                
                                    www.hcban.com
                                            
                                                神剑山庄资源网 
                                    
                                    
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                        
                                            
                                        
                                    
                                    
                                    
                                        
                                            139,976影音资源
                                        
                                        
                                            144,792福利资源
                                        
                                        
                                            21,817软件资源
                                        
                                        
                                            631,128技术资源
                                        
                                    
                                
                            
                            
                                最新文章
                                
                                    
                                         
                                       
                                            
                                                
                                            
                                            
                                                
                                                    胡彦斌《失业情歌》首版[WAV+CUE]
                                                
                                                
                                                    
                                                        2024/11/17
                                                        
                                                         24
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    杨泰瑞《City Boy》[FLAC/分轨][159.66MB]
                                                
                                                
                                                    
                                                        2024/11/17
                                                        
                                                         64
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    APM亚流新世代《一起冒险》[320K/MP3][68.6
                                                
                                                
                                                    
                                                        2024/11/17
                                                        
                                                         42
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    FIM《天伦乐》(DaydreamsAndLullabies)24K金
                                                
                                                
                                                    
                                                        2024/11/17
                                                        
                                                         18
                                                    
                                                
                                            
                                        
 
                                       
                                            
                                                
                                            
                                            
                                                
                                                    【雨果唱片】中国管弦乐《鹿回头》
                                                
                                                
                                                    
                                                        2024/11/17
                                                        
                                                         65
                                                    
                                                
                                            
                                        


                                    
                                
                            
                            站点导航
抖音极速版河马剧场京东小红书微信高德地图红果短剧夸克美团剪映拼多多支付宝淘宝快手QQ哔哩哔哩番茄小说得物阿里巴巴王者荣耀和平精英腾讯视频爱奇艺QQ音乐咸鱼之王逆水寒三国志战略版梦幻西游金铲铲之战捕鱼大作战原神英雄联盟手游网易云音乐崩坏星穹铁道优酷视屏酷狗音乐蛋仔派对


            《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒 经典版》的玩家都可以获得奖励。
            
                
                    
                        
                            更新日志
                        
                        
                            
                                
                                    2024年11月17日
                                
                                                    
                        
 
                            胡彦斌《失业情歌》首版[WAV+CUE]
 
                            杨泰瑞《City Boy》[FLAC/分轨][159.66MB]
 
                            APM亚流新世代《一起冒险》[320K/MP3][68.66MB]
 
                            FIM《天伦乐》(DaydreamsAndLullabies)24K金碟[WAV+CUE]
 
                            【雨果唱片】中国管弦乐《鹿回头》

                        
                    
                    
                        2024年11月17日
                    
                    
                        
 
                            【雨果唱片】中国管弦乐《鹿回头》WAV
 
                            APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
 
                            崔健《飞狗》律冻文化[WAV+CUE][1.1G]
 
                            罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
 
                            尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
 
                            张惠妹.2007-STAR（引进版）【EMI百代】【WAV+CUE】
 
                            群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
 
                            罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
 
                            Tank《我不伟大，至少我能改变我。》[320K/MP3][160.41MB]
 
                            Tank《我不伟大，至少我能改变我。》[FLAC/分轨][236.89MB]
 
                            CD圣经推荐-夏韶声《谙2》SACD-ISO
 
                            钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
 
                            群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
 
                            潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
 
                            林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】

                        
                    
                            
                        
                    
                
            
            
                
                    友情链接 
                
                    
                        杰晶网络
                        DDR爱好者之家
                        桃源资源网
                        杰网资源
                        富贵资源网
                        南强小屋
                        铁雪资源网
                        幽灵资源网
                        万梅资源网
                        狼山资源网
                        白云岛资源网
                        昆仑资源网
                        相思资源网
                        明霞山资源网
                        内蒙古资源网
                        黑松山资源网
                        茶园资源网
                        饿虎岗资源网
                        大旗谷资源网
                        常春岛资源网
                        岱庙资源网
                        兴国资源网
                        快活林资源网
                        蝙蝠岛资源网
                        帝王谷资源网
                        白云城资源网
                        伏龙阁资源网
                        清风细雨楼
                        天枫庄资源网
                        圆月山庄资源网
                        无争山庄资源网
                        神水资源网
                        移花宫资源网
                        神剑山庄资源网
                        无为清净楼资源网
                        金钱帮资源网
                        丐帮资源网
                        华山资源网
                        极乐门资源网
                        小李飞刀资源网
                        凤求凰客栈
                        风云阁资源网
                        金狮镖局
                        鸳鸯亭资源网
                        千金楼资源网
                        更多链接
                    
                
            
            神剑山庄资源网 Design By www.hcban.com
            
                
                    
                        
                    
                    
                        
                    
                
                
                    
                       神剑山庄资源网 Copyright © 2006~2023 Design by www.hcban.com  手机版