1.介绍
爬取数据的时候一般我们就要模拟浏览器的请求去访问网站获取数据,我们单独使用Cookie可能会被网站拦截,从而获取不到想要的数据,那么我们在Cookie有效的情况下模拟浏览器标识,让服务器觉得我们是在浏览器进行访问,从而获取数据的目的!
2.请求工具
本次使用的请求工具为Hutool
包的HttpUtil工具,发送Post或Get等常用请求
在项目的pom.xml的dependencies中加入以下内容:
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.8.3</version>
</dependency>
3.开始表演
接着我们只做演示,不做其他危害他人网站的事情,把人网站爬蹦了可能你就要在某些地方踩缝纫机哦
我直接把请求头信息搞到工程中,做演示
该请求是Get请求,我们通过HttpUtil.createGet
方法创建Get请求
代码如下:
我们需要前面复制的请求头信息添加到headers
中去是不是一个一个字体进去?
像这样一行一行的粘贴进去呢,几个还好,请求头信息如果有20多个呢是不是要搞半天呀
4.利用正则进行替换
使用Idea正则进行替换那就很快了,由于可能存在IDEA快捷键会有所不同我使用的是Eclipse的快捷键
你们通过编辑找到替换也可以,如果是和我快捷键一样那就Ctrl+F就可以打开替换
打开后点击.*按钮打开正则打开后我们就可以通过正则匹配我们要的数据我们要通过:
来区分key和value
1.匹配规则
通过以下命令匹配
(.*?): (.*)
2.替换规则
替换的命令
("$1","$2");
$1
表示查找:
左边括号内的数据,$2
则是左边括号内的数据,当然你们也可以通过自己需要的情况进行替换命令的修改
点击全部替换后的效果
接着我们用快捷键按住ALT键,然后移动鼠标控制光标选中的行是要修改的数据,光标就会变成多个,这样我们就可以一起做修改
效果如下是不是就很方便了
发送请求可以看出已经获取到网站的对应数据了
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/83834.html