IDEA替换,利用正则快速实现爬虫请求头修改

导读:本篇文章讲解 IDEA替换,利用正则快速实现爬虫请求头修改,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

1.介绍

     爬取数据的时候一般我们就要模拟浏览器的请求去访问网站获取数据,我们单独使用Cookie可能会被网站拦截,从而获取不到想要的数据,那么我们在Cookie有效的情况下模拟浏览器标识,让服务器觉得我们是在浏览器进行访问,从而获取数据的目的!

2.请求工具

本次使用的请求工具为Hutool包的HttpUtil工具,发送Post或Get等常用请求

在项目的pom.xml的dependencies中加入以下内容:

<dependency>
    <groupId>cn.hutool</groupId>
    <artifactId>hutool-all</artifactId>
    <version>5.8.3</version>
</dependency>

3.开始表演

接着我们只做演示,不做其他危害他人网站的事情,把人网站爬蹦了可能你就要在某些地方踩缝纫机哦
在这里插入图片描述
我直接把请求头信息搞到工程中,做演示
在这里插入图片描述

该请求是Get请求,我们通过HttpUtil.createGet方法创建Get请求
代码如下:
在这里插入图片描述
我们需要前面复制的请求头信息添加到headers中去是不是一个一个字体进去?

像这样一行一行的粘贴进去呢,几个还好,请求头信息如果有20多个呢是不是要搞半天呀
在这里插入图片描述

4.利用正则进行替换

使用Idea正则进行替换那就很快了,由于可能存在IDEA快捷键会有所不同我使用的是Eclipse的快捷键
在这里插入图片描述
你们通过编辑找到替换也可以,如果是和我快捷键一样那就Ctrl+F就可以打开替换
在这里插入图片描述
打开后点击.*按钮打开正则在这里插入图片描述打开后我们就可以通过正则匹配我们要的数据我们要通过来区分key和value

1.匹配规则

通过以下命令匹配

(.*?): (.*)

在这里插入图片描述

2.替换规则

替换的命令

("$1","$2");

$1表示查找左边括号内的数据,$2则是左边括号内的数据,当然你们也可以通过自己需要的情况进行替换命令的修改
在这里插入图片描述
点击全部替换后的效果
在这里插入图片描述
接着我们用快捷键按住ALT键,然后移动鼠标控制光标选中的行是要修改的数据,光标就会变成多个,这样我们就可以一起做修改
在这里插入图片描述
效果如下是不是就很方便了
在这里插入图片描述
发送请求可以看出已经获取到网站的对应数据了
在这里插入图片描述

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/83834.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!