基于python爬取梨视频实现过程解析

脚本专栏 2024/11/17 佚名

2 0 1

神剑山庄资源网 Design By www.hcban.com

目标网址：梨视频

然后我们找到科技这一页：https://www.pearvideo.com/category_8。其实你要哪一页都行，你喜欢就行。嘿嘿…

这是动态网站，所以咱们直奔network 然后去到XHR：

找规律，这个应该不难，我就直接贴网址上来咯，想要锻炼的可以找找看哈：

https://www.pearvideo.com/category_loading.jsp"text-align: center">

代码如下：

import requests
import parsel,re
import os
target = "https://www.pearvideo.com/videoStatus.jsp"

url = "https://www.pearvideo.com/category_loading.jsp"
res = requests.get(url)
res.encoding="utf-8"
html = parsel.Selector(res.text)
lists = html.xpath('/html/body/li/div/a/@href').getall()
for each in lists:

  print("https://www.pearvideo.com/"+each)

output;
https://www.pearvideo.com/video_1703486
https://www.pearvideo.com/video_1703189
https://www.pearvideo.com/video_1703161
https://www.pearvideo.com/video_1702880
https://www.pearvideo.com/video_1702773
...

顺利拿到，然后进入播放页面，却发现找不到MP4视频，怎么办？经过我一番努力（扯掉了几十根头发后）发现，它在另外一个网址里面

咋办？当然要想办法把这个网址搞到手啦，仔细分析下，发现这个网址非常陌生呀，唯一稍微熟悉点的就是那串数字了，前面我们拿到播放页的网址后面那串数字和这个对比，完全是一模一样的，这样的话那就好搞了，咱们直接用拼接的方式把它接上去就可以了，看代码：

for each in lists:
  url_num = each.replace('video_',"")
  urls = target+url_num
  print(urls)
``

```python
output：
https://www.pearvideo.com/videoStatus.jsp"text-align: center">
恩，很明显，是遇到反爬机制了，这个好搞，要什么给什么就行，代码如下：


	headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
  'Referer': 'https://www.pearvideo.com/video_'+ str(url_num)
  }
  html = requests.get(urls,headers=headers).text
  print(html)





搞定！！
最后我们看一下MP4能不能播放：



西八！404！！恩，这里就稍微有点麻烦了，还得找数据，把里面的时间戳改成 ‘cont-数字‘，感觉写了好多，手都有点累了，我就直接上代码了：


import requests
import parsel,re
import os


 
target = "https://www.pearvideo.com/videoStatus.jsp"

url = "https://www.pearvideo.com/category_loading.jsp"
res = requests.get(url)
res.encoding="utf-8"
html = parsel.Selector(res.text)
lists = html.xpath('/html/body/li/div/a/@href').getall()
# print(lists[2:])
# 提取视频后面的数字，数字是最重要的，需要传给 Referer 和 urls
for each in lists:
  url_num = each.replace('video_',"")
  urls = target+url_num
  # print(urls)
  headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
  'Referer': 'https://www.pearvideo.com/video_'+ str(url_num)
  }
  html = requests.get(urls,headers=headers).text
  
  cont = 'cont-' + str(url_num)

  # 提取 mp4 视频
  srcUrl = re.findall(f'"srcUrl":"(.*"',html)[0]
  # 替换视频里面的时间戳，改为可以真正播放的数据
  new_url = srcUrl.replace(srcUrl.split("-")[0].split("/")[-1],cont)
  print(new_url)
  

  # 使用视频后缀当视频名称
  filename = srcUrl.split("/")[-1]

  # 保存到本地
  with open("./images/"+filename,"wb") as f:
    f.write(requests.get(new_url).content)



以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

python,爬取,梨视频

标签：

python,爬取,梨视频

神剑山庄资源网 Design By www.hcban.com

神剑山庄资源网 免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

神剑山庄资源网 Design By www.hcban.com

评论“基于python爬取梨视频实现过程解析”

暂无基于python爬取梨视频实现过程解析的评论...

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

暴雪近日发布了《魔兽世界》10.2.6 更新内容，新游玩模式《强袭风暴》即将于3月21 日在亚服上线，届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。

艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕，并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时，他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中，玩家将会进入一个全新的海盗主题大逃杀式限时活动，其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场，作为一个独立于主游戏之外的活动，玩家可以用大逃杀的风格来体验《魔兽世界》，不分职业、不分装备（除了你在赛局中捡到的），光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式，玩家在加入海盗主题的预赛大厅区域前，可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹，《巨龙崛起》和《魔兽世界：巫妖王之怒经典版》的玩家都可以获得奖励。

更新日志

2024年11月17日

基于python爬取梨视频实现过程解析

python,爬取,梨视频

OpenCV实现机器人对物体进行移动跟随的方法实例

Python eval函数介绍及用法

评论“基于python爬取梨视频实现过程解析”

《魔兽世界》大逃杀！60人新游玩模式《强袭风暴》3月21日上线

更新日志

友情链接