想法
工作中有个需求,需要对某个服务的配置文件进行替换。其中有个操作,需要对网页进行重复手动操作。那么作为程序员来说,重复的操作往往都能用脚本解决,而网页往往可以用爬虫来处理。刚好,我又会点爬虫。想到这就直接开写。
你将在本章中学到什么?
-
chromedp的基本使用 -
爬虫经验
为什么使用chromedp
网页分为:”静态网页“,”动态网页“,静态网页相等爬取比较简单,直接使用爬虫框架,或者http requests请求即可。比如:python的scrapy,golang的Colly。但是往往很多网站都是js动态生成的,那么在这种情况下,需要通过浏览器模拟渲染动作,获取生成的页面源码,进而进行解析。
之前对于这种动态的页面爬取,使用的是scrapy+docker+splash来解决,很久没有写过python了,想用golang尝尝鲜。chromedp如何理解:跟selenium, puppetter一样,都是通过调用chrome的底层协议来模拟浏览器来完成操作。
测试代码链接:https://github.com/toheart/golearn/tree/main/crawler/Lchromedp
简单使用
官方举例
func TestSimple(t *testing.T) {
// 创建一个chrome实例, 默认是headless的方式运行
ctx, cancel := chromedp.NewContext(
context.Background(),
)
defer cancel()
ctx, cancel = context.WithTimeout(ctx, 15*time.Second)
defer cancel()
// navigate to a page, wait for an element, click
var example string
err := chromedp.Run(ctx,
chromedp.Navigate(`https://pkg.go.dev/time`),
// 等到body>footer的内容加载后,向下执行
chromedp.WaitVisible(`body > footer`),
// 进行点击操作
chromedp.Click(`#example-After`, chromedp.NodeVisible),
// 尝试获取#example-After的textarea中的值
chromedp.Value(`#example-After textarea`, &example),
)
if err != nil {
log.Fatal(err)
}
log.Printf("Go's time.After example:n%s", example)
}
执行后,直接输出了textarea中内容。因为默认处于headless执行不可观测到实际的动作。所以接下来需要禁用headless。代码如下:
func TestWithoutHeadless(t *testing.T) {
ctx, exCancel := chromedp.NewExecAllocator(
context.Background(),
// 以默认配置的数组为基础,覆写headless参数
// 当然也可以根据自己的需要进行修改,这个flag是浏览器的设置
append(
chromedp.DefaultExecAllocatorOptions[:],
chromedp.Flag("headless", false), // 显示界面
)...,
)
defer exCancel()
....
}
执行完这个代码后,会显示调用出浏览器,对于排障比较舒服。其他的一些操作示例,可以查看官方的example来执行:https://github.com/chromedp/examples/blob/master/text/main.go
爬虫经验
在爬虫过程中,我们需要定位dom来完成进一步操作,那么如何操作呢?可以通过xpath, selector来进行定位。具体操作如下:打开浏览器-> F12->点击检查按钮->选择对应的元素->右键选择复制。举证如下:对于相同元素的获取,就需要提取相关特征,按Ctrl+F 键打开查找窗口来实现,如获取所有的目录名称如下:
xpath,selector语法可以直接查文档即可。
更多问题
-
如何理解chromedp这个实例?
答:chromedp就像等于你获得了一个chrome浏览器,可以通过这个实例将你的操作代码化。
-
作为一个爬虫任务,不可能只用一个tab页进行,这样会使得操作都串行了,效率降低,如何进行多开tab页,并行爬取?
答:这里触发一个支线任务,当对于一个新的第三方库,怎么办?这里可以看到chromedp的执行过程都是使用chromedp这个库开头调用里面的暴露出的function,那么这就好办了。直接打开https://pkg.go.dev/ 查询chromedp的api函数。全局搜索相关字段,比如new tab,即可定位相应函数。(当然需要第三方库写的比较好的情况下)
-
对于一些测试手段,我需要对网页中的某些http报文进行检查,校验,这部分如何操作?
答:在chromedp中,可以通过监听手段来获取浏览器相关的事件。代码如下:
chromedp.ListenTarget(ctx, func(ev interface{}) {
switch ev := ev.(type) {
case *network.EventResponseReceived:
resp := ev.Response
if len(resp.Headers) != 0 {
// log.Printf("received headers: %s", resp.Headers)
t.Logf("%s n", resp.URL)
}
}
})
小结
工作也是积累经验的一部分,程序员如果遇到重复性的工作,第一反应先慢下来,想想是否自己可以写一个程序来完成工作。
以上。
原文始发于微信公众号(小唐云原生):【chromedp】网页操作不该重复点点点
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/270876.html