1.环境准备(按以下顺序安装,不然lxml很容易失败,切记!!!):
默认pycharm、python3、pip等基础环境已具备,以下为推荐的第三方库安装:
a. pip3 install requests
b. pip install lxml
c. pip install beautifulsoup4
一次性安装成功:
2.爬虫代码-获取网页(requests)
import requests
#获取网页
baidu=requests.get('https://www.baidu.com')
print(baidu) #打印请求状态,200为成功
print(baidu.content) #打印网页源码
获取结果:
3.爬虫代码-解析网页(beautifulsoup4+lxml)
import requests
from bs4 import BeautifulSoup
import lxml
baidu=requests.get('https://www.baidu.com') #请求百度首页
bdxml=BeautifulSoup(baidu.content,'lxml') #将获取到的网页构造成BeautifulSoup对象,方便操作
print(bdxml.find_all('title'))#提取title标签
alist=bdxml.find_all('a') #提取所有的a标签(用于获取超链接)
for a in alist:
print(a.get('href')) #打印a标签的超链接
结果:
其他:
根据想要的数据分析需要提取的标签,然后提取数据;
同时每个网络包含了很多URL,可递归深度爬取
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/65309.html