Scrapy框架获取get请求中数据-及获取其详情页内容

Java光头强 • 2023年2月20日上午8:59 • 后端漫谈 • 阅读 229

导读：本篇文章讲解 Scrapy框架获取get请求中数据-及获取其详情页内容，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

使用爬虫框架Scrapy爬取get请求中的数据及其详情页内容

"""
	直接请求get网页数据，不涉及使用items和pipelines
	目前不涉及翻页
"""
class XxxSpider(scrapy.Spider):
    ...		# name、allowed_domians
    start_urls = ['需要获取列表数据的链接']
    
    """
    	获取页面元素列表内容
    """
    def parse(self, response):
        # 判断请求的链接返回的状态码和文本内容长度
        if response.status == 200 and len(response.text) > 10:
            # 使用xpath解析网页，获取所需元素
            titles = response.xpath('xpath解析语句').extract()
            urls = response.xpath('xpath解析语句').extract()
            
            for i in range(0,len(titles)):
                url = urls[i]
                title = titles[i]
                # 测试输出
                print(url, title)
                # 将解析到的 内容详情页url 拿去 获取页面中的内容
                yield scrapy.Request(url=url, callback=self.html)
    """
    	获取url详情页中的数据
    """            
	def html(self.response):
        # 判断请求的链接返回的状态码和文本内容长度
        if response.status == 200 and len(response.text) > 10:
            # 使用xpath解析内容详情页，获取所需元素
            content = response.xpath('xpath解析语句').extract()
            # 测试输出
            print(content)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/114877.html

赞 (0)

0 0

后端漫谈

工具类自动生成MybatisXML中的resultMap

000209

seven_
2023年2月24日
后端漫谈

Jupyter Notebook的安装与使用

000267

飞熊
2023年4月22日
后端漫谈

Mybatis学习笔记

000183

飞熊
2023年4月26日
后端漫谈

日志框架之日志门面SLF4J的使用

000235

飞熊
2023年4月22日
后端漫谈

电脑开机密码怎么设置？如何给你的电脑加上“安全锁”

000140

飞熊
2023年8月23日
后端漫谈

Docker安装Mysql集群(主从复制)

000219

飞熊
2023年4月26日
后端漫谈

十一、.net core（.NET 6）搭建ElasticSearch(ES)系列之ElasticSearch、head-master、Kibana环境搭建…

000141

seven_
2023年3月2日
后端漫谈

C# 操作PDF 图层（Layer）——添加、删除图层、设置图层可见性

000209

小半
2024年2月21日
后端漫谈

Winform/Csharp中连接Mysql并执行指定sql,查询结果通过反射映射为对象的List

000175

飞熊
2023年4月20日
后端漫谈

Windows中获取Redis指定前缀的Key并删除掉

000267

飞熊
2023年4月20日
后端漫谈

【保姆级】手把手Debug循环依赖的整体流程

000147

飞熊
2023年4月19日
后端漫谈

Java五种设计模式实现奶茶订单生成系统小DEMO

000352

小半
2024年1月4日

发表回复

登录后才能评论

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！