Python网络爬虫
1.知识要求
如果你对相关知识有些遗忘,可以点上面的链接,熟悉一下相关知识点。
2.IP代理池
(1)为什么要使用IP代理?
因为,你如果一直用用户代理的方式去爬取一个网站,爬取次数多了,很容易被识别出来是爬虫,导致用户代理被封,而你用不同浏览器的用户代理,实际上都是使用同一IP地址。如果我们频繁切换IP地址,那么,等效于我们在不同的城市访问,那这样浏览器完全识别不出来你是爬虫。
(2)怎么获取IP代理?
IP代理可以到百度上搜索,有很多网站都有免费的,不过免费的别人都在用,所以效果不好,有时总时会爬取网页失败,我个人推荐一个很好的免费版的IP代理,如果你经济条件很好,我这里也有一个收费的很好的IP代理网站。
(3)IP代理池实战
eg:用IP代理池技术,每次从IP代理池中随机选一个IP代理,进行爬取数据
import urllib.request
import random
#构建IP代理池
ip_pool = [
'58.221.55.58:808',
'120.198.248.26:8088',
'221.229.166.55:8080',
'139.196.214.67:8080'
]
def ip(ip_pool, url):
#从IP代理池中随机选一个IP代理
ip = random.choice(ip_pool)
print(ip)
#格式化IP代理格
proxy = urllib.request.ProxyHandler({'http': ip})
#装入IP代理
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
return urllib.request.urlopen(url).read().decode('utf-8', 'ignore')
data = ip(ip_pool, 'https://www.baidu.com/?tn=98010089_dg&ch=15')
print(data)
3.IP代理池与用户代理的组合使用
eg:用IP代理池与用户代理的组合的方式来增加访问量,这样更加安全
import urllib.request
import random
import urllib.error
#自定义UA_IP类,用来随机得到
def UA_IP(thisUrl):
#构建用户代理池
ua_pool = [
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.89 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201',
'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'
]
#构建ip代理池
ip_pool = [
'139.196.196.74',
'112.124.47.21',
'61.129.70.109',
'221.229.166.55'
]
thisUA = random.choice(ua_pool) #从用户代理池中随机选择一个用户代理
thisIP = random.choice(ip_pool) #从IP代理池中随机选择一个IP代理
headers = ('User-Agent', thisUA) #构造报头
#将IP格式化
proxy = urllib.request.ProxyHandler({'http': thisIP})
#装入IP代理
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
#装入代理
opener.addheaders = [headers]
#将opener设置为全局
urllib.request.install_opener(opener)
#从网页爬取信息
data = urllib.request.urlopen(thisUrl).read().decode('utf-8', 'gnore')
return data
#网页池,后面从网页池中选择一个进行该网页信息的爬取
urls = [
'https://mp.csdn.net/mdeditor/88323361#',
'https://mp.csdn.net/mdeditor/88144295#',
'https://mp.csdn.net/mdeditor/88144295#',
'https://mp.csdn.net/mdeditor/88081609#'
]
#爬取1000次
for i in range(0, 1000):
try:
thisUrl = random.choice(urls)
data = UA_IP(thisUrl)
print(len(data))
except urllib.error.HTTPError as e:
if hasattr(e, 'code'):
print(e.code)
if hasattr(e, 'reason'):
print(e.reason)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/84809.html