问题: 常见用HttpClent和Jsoup是无法抓取动态渲染页面的, 以下方法表示模拟出一个浏览器, 解析动态渲染页面.
1.Maven依赖
<!--jsoup 是一款 Java 的HTML 解析器-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
<!--模拟一个无头浏览器-->
<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.23</version>
</dependency>
2.抓取Ajxa/JSP动态渲染页面
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* @className: CrawlController
* @description: 爬虫抓取Web
* @date: 2021/9/22
**/
public class CrawlController {
/**
* 设置一个无头浏览器,抓取动态渲染页面
* @param requestUrl 要解析页面URL地址
* @return 返回Document对象
*/
public Document accordingToURLGetBrowserHtml(String requestUrl) {
System.out.println("正在加载页面: " + requestUrl);
WebClient webClient = new WebClient(BrowserVersion.CHROME);//新建一个模拟谷歌Chrome浏览器的浏览器客户端对象
webClient.getOptions().setJavaScriptEnabled(true); //很重要,启用JS
webClient.getOptions().setCssEnabled(false);//是否启用CSS, 因为不需要展现页面, 所以不需要启用
webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常, 这里选择不需要
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常, 这里选择不需要
webClient.getOptions().setActiveXNative(false);//本地ActiveX
webClient.getOptions().setTimeout(3 * 1000);//设置连接超时时间
HtmlPage page = null;
String pageXml = "";
try {
page = webClient.getPage(requestUrl);//加载异步ajax网页
webClient.waitForBackgroundJavaScript(3 * 1000);//异步JS执行需要耗时,所以这里线程要阻塞多少秒,看情况决定,等待异步JS执行结束
webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要,设置支持AJAX
pageXml = page.asXml();//直接将加载完成的页面转换成xml格式的字符串
} catch (Exception e) {
e.printStackTrace();
} finally {
webClient.close();
}
Document document = Jsoup.parse(pageXml);//Jsoup获取document对象
return document;
}
获取到Document对象用Jsoup就很简单的解析了操作了.
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/192833.html