【爬虫】python爬虫简单样例（requests+beautifulsoup4+lxml）

小半 • 2022年12月27日下午1:55 • 后端开发 • 阅读 261

导读：本篇文章讲解【爬虫】python爬虫简单样例（requests+beautifulsoup4+lxml），希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

1.环境准备（按以下顺序安装，不然lxml很容易失败，切记！！！）：

默认pycharm、python3、pip等基础环境已具备，以下为推荐的第三方库安装：
a. pip3 install requests
b. pip install lxml
c. pip install beautifulsoup4
一次性安装成功：

2.爬虫代码-获取网页（requests）

import requests

#获取网页
baidu=requests.get('https://www.baidu.com') 
print(baidu) #打印请求状态，200为成功
print(baidu.content) #打印网页源码

获取结果：

3.爬虫代码-解析网页（beautifulsoup4+lxml）

import requests
from bs4 import BeautifulSoup
import lxml

baidu=requests.get('https://www.baidu.com') #请求百度首页

bdxml=BeautifulSoup(baidu.content,'lxml') #将获取到的网页构造成BeautifulSoup对象，方便操作

print(bdxml.find_all('title'))#提取title标签

alist=bdxml.find_all('a') #提取所有的a标签（用于获取超链接）
for a in alist:
    print(a.get('href')) #打印a标签的超链接

结果：

其他：

根据想要的数据分析需要提取的标签，然后提取数据；
同时每个网络包含了很多URL，可递归深度爬取

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/65309.html

赞 (0)

0 0

Java

精通Mybatis之Executor执行器

000250

小半
2022年5月23日
后端开发

关于Java顶级父类

000170

小半
2022年5月12日
后端开发

传输层和应用层

000207

小半
2023年12月18日
后端开发

【刨根问底】带你深入理解JUC并发工具类 — 信号量和管程

000201

小半
2022年7月25日
后端开发

使用Java中的JsonSerializer进行类型转换

000204

小半
2023年1月1日
Python

通过Jenkins执行脚本，生成自动化测试报告

000135

飞熊
2023年3月5日
Go语言

一文搞懂MySQL的基本常识和工作原理

000164

小半
2024年4月5日
Python

hive之分区排序窗口函数

000247

小半
2023年2月11日
后端开发

redis的INFO命令使用详解

000177

小半
2022年5月27日
后端开发

如何使用现代C++特性构建游戏引擎

000177

飞熊
2023年5月24日
后端开发

根据用户更新动态时间去查询符合条件的动态，并按更新时间排序用户列表

000252

飞熊
2023年5月24日
Python

32. 网站性能介绍

000226

小半
2022年9月25日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！