爬取代理IP及测试是否可用
很多人在爬虫时为了防止被封IP,所以就会去各大网站上查找免费的代理IP,由于不是每个IP地址都是有效的,如果要进去一个一个比对的话效率太低了,我也遇到了这种情况,所以就直接尝试了一下去网站爬取免费的代理IP,并且逐一的测试,最后将有效的IP进行返回。
在这里我选择的是89免费代理IP网站进行爬取,并且每一个IP都进行比对测试,最后会将可用的IP进行另存放为一个列表
https://www.89ip.cn/
一、准备工作
导入包并且设置头标签
import requests from bs4 import BeautifulSoup header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' }
二、提取网页源码
提取网页源码返回的是整个网站的HTML
def getHtml(url): try: reponse = requests.get(url, headers=header) reponse.raise_for_status() reponse.encoding = reponse.apparent_encoding return reponse.text except: return "网页源码提取错误"
三、解析HTML并提取IP
函数传入的参数是HTML和存放IP地址的列表
# 解析网页,提取IP def getIp(html, list): try: soup = BeautifulSoup(html, "html.parser") tr = soup.find("tbody").find_all_next("tr") for ip in tr: # 提取IP td = ip.find_next("td").string td = str(td).replace(" ", "").replace("\n", "").replace("\t", "") # 提取端口号 dk = ip.find_all_next("td")[1].string dk = str(dk).replace(" ", "").replace("\n", "").replace("\t", "") # 将IP和端口号进行连接 ip = td + ":" + dk list.append(ip) # 再进IP地址存放至指定列表中去 except: print("获取IP失败")
四、测试IP是否可用
在这里测试IP的原理是用requests请求百度网站,并且传入代理IP,如果网站返回状态码为200那么说明此IP有效,如果出现其他情况则判断IP地址无效
# 测试出可用IP def ip_text(list, valid_IP): try: url = "https://www.baidu.com//" for ip in list: try: rep = requests.get(url, proxies={'https': ip}, headers=header, timeout=0.5) if rep.status_code == 200: # 如果放回的状态码是200,那么说明该IP地址可用 valid_IP.append(ip) print("该代理IP有效:" + ip) else: print("该代理IP无效:" + ip) except: print("该代理IP无效:" + ip) except: print("IP测试失败")
五、主函数main
主函数中主要负责调用函数和自定义页数指定生成URL,并且在程序结束前会输出有效IP地址
if __name__ == '__main__': valid_IP = [] # 有效IP地址 for i in range(1, 90): # 可自定义页数 ip_list = [] # 存放所有爬取到的ip url = "https://www.89ip.cn/index_" + str(i) + ".html" print(url) html = getHtml(url) getIp(html, ip_list) ip_text(ip_list, valid_IP) print("=" * 30) print("测试完成,有效IP如下:") print("-" * 30) for a in valid_IP: print(a) print("=" * 30)
代码整体框架已经结束完毕了,最后把所有代码呈现出了
完整代码
# -*- coding: utf-8 -*- # Author : YRH # Data : 2020/10/07 # Project : 爬取代理IP并且测试可用IP # Tool : PyCharm import requests from bs4 import BeautifulSoup header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' } # 提取网页源码 def getHtml(url): try: reponse = requests.get(url, headers=header) reponse.raise_for_status() reponse.encoding = reponse.apparent_encoding return reponse.text except: return "网页源码提取错误" # 解析网页,提取IP def getIp(html, list): try: soup = BeautifulSoup(html, "html.parser") tr = soup.find("tbody").find_all_next("tr") for ip in tr: # 提取IP td = ip.find_next("td").string td = str(td).replace(" ", "").replace("\n", "").replace("\t", "") # 提取端口号 dk = ip.find_all_next("td")[1].string dk = str(dk).replace(" ", "").replace("\n", "").replace("\t", "") # 将IP和端口号进行连接 ip = td + ":" + dk list.append(ip) # 再进IP地址存放至指定列表中去 except: print("获取IP失败") # 测试出可用IP def ip_text(list, valid_IP): try: url = "https://www.baidu.com//" for ip in list: try: rep = requests.get(url, proxies={'https': ip}, headers=header, timeout=0.5) if rep.status_code == 200: # 如果放回的状态码是200,那么说明该IP地址可用 valid_IP.append(ip) print("该代理IP有效:" + ip) else: print("该代理IP无效:" + ip) except: print("该代理IP无效:" + ip) except: print("IP测试失败") if __name__ == '__main__': valid_IP = [] # 有效IP地址 for i in range(1, 90): # 可自定义页数 ip_list = [] # 存放所有爬取到的ip url = "https://www.89ip.cn/index_" + str(i) + ".html" print(url) html = getHtml(url) getIp(html, ip_list) ip_text(ip_list, valid_IP) print("=" * 30) print("测试完成,有效IP如下:") print("-" * 30) for a in valid_IP: print(a) print("=" * 30)
python爬取代理IP
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
- 【雨果唱片】中国管弦乐《鹿回头》WAV
- APM亚流新世代《一起冒险》[FLAC/分轨][106.77MB]
- 崔健《飞狗》律冻文化[WAV+CUE][1.1G]
- 罗志祥《舞状元 (Explicit)》[320K/MP3][66.77MB]
- 尤雅.1997-幽雅精粹2CD【南方】【WAV+CUE】
- 张惠妹.2007-STAR(引进版)【EMI百代】【WAV+CUE】
- 群星.2008-LOVE情歌集VOL.8【正东】【WAV+CUE】
- 罗志祥《舞状元 (Explicit)》[FLAC/分轨][360.76MB]
- Tank《我不伟大,至少我能改变我。》[320K/MP3][160.41MB]
- Tank《我不伟大,至少我能改变我。》[FLAC/分轨][236.89MB]
- CD圣经推荐-夏韶声《谙2》SACD-ISO
- 钟镇涛-《百分百钟镇涛》首批限量版SACD-ISO
- 群星《继续微笑致敬许冠杰》[低速原抓WAV+CUE]
- 潘秀琼.2003-国语难忘金曲珍藏集【皇星全音】【WAV+CUE】
- 林东松.1997-2039玫瑰事件【宝丽金】【WAV+CUE】