【爬虫】python爬虫简单样例(requests+beautifulsoup4+lxml)

导读:本篇文章讲解 【爬虫】python爬虫简单样例(requests+beautifulsoup4+lxml),希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

1.环境准备(按以下顺序安装,不然lxml很容易失败,切记!!!):

默认pycharm、python3、pip等基础环境已具备,以下为推荐的第三方库安装:
a. pip3 install requests
b. pip install lxml
c. pip install beautifulsoup4
一次性安装成功:
在这里插入图片描述

2.爬虫代码-获取网页(requests)

import requests

#获取网页
baidu=requests.get('https://www.baidu.com') 
print(baidu) #打印请求状态,200为成功
print(baidu.content) #打印网页源码

获取结果:
在这里插入图片描述
3.爬虫代码-解析网页(beautifulsoup4+lxml)

import requests
from bs4 import BeautifulSoup
import lxml

baidu=requests.get('https://www.baidu.com') #请求百度首页

bdxml=BeautifulSoup(baidu.content,'lxml') #将获取到的网页构造成BeautifulSoup对象,方便操作

print(bdxml.find_all('title'))#提取title标签

alist=bdxml.find_all('a') #提取所有的a标签(用于获取超链接)
for a in alist:
    print(a.get('href')) #打印a标签的超链接

结果:
在这里插入图片描述

其他:

根据想要的数据分析需要提取的标签,然后提取数据;
同时每个网络包含了很多URL,可递归深度爬取

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/65309.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!