【Python爬虫】爬取大量数据网络超时的解决思路

小半 • 2022年12月19日下午4:30 • Python • 阅读 265

导读：本篇文章讲解【Python爬虫】爬取大量数据网络超时的解决思路，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

问题

在爬取大量数据的过程中，有时没有注意，会出现网络超时，结果也不知道爬到了哪里，重新爬一遍代价太大。

解决思路

目前提供解决思路，实践之后补充示例代码。

思路一
1.设置超时处理，超过时间返回异常。
2.重试与超时结合。
3.在超时范围内发现问题，及时处理。
思路二
1.将要下载的url形成列表文件；
2.将已下载url记录形成列表文件；
2.出现错误后比较前后两个文件内容，删除重复内容；
4.按照删除重复后的列表文件的继续运行下载程序。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/63076.html

赞 (0)

0 0

Python

一篇文章轻松学会python装饰器

000274

小半
2024年2月23日
Python

crond与at任务调度

000344

小半
2022年12月12日
Python

XGBoost：一个机器学习梯度提升框架及Python应用

000358

小白这样学Python
2024年4月1日
Python

【Flask】ORM一对一关联关系

000297

飞熊
2023年3月5日
Python

【目标检测】yolov5模型详解

000741

飞熊
2023年9月5日
Python

【django_restframework】序列化器字段校验规则

000282

飞熊
2023年3月5日
Python

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍

000393

飞熊
2023年9月5日
Python

ubuntu中pycharm打不开的的处理方法

000258

飞熊
2023年3月5日
Python自学教程教程

Python基础-15-函数

000699

小半
2024年1月11日
Python

关于css3中flex布局(弹性布局/弹性盒子)

000281

小半
2022年12月12日
Python自学教程教程

edt，一个非常实用的Python库

000755

python学霸
2024年4月26日
Python

我们都在努力奔跑，我们都是追梦人

000306

小半
2023年2月16日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！