网络爬虫—XPath表达式

小半 • 2023年1月29日下午4:23 • 技术随笔 • 阅读 202

导读：本篇文章讲解网络爬虫—XPath表达式，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

1.XPath表达式与正则表达式的简单比较

（1）XPath表达式的执行效率更高
（2）正则表达式的功能会更加强大一些
（3）一般来说，优先选用XPath表达式，XPath表达式解决不了的再用正则表达式取解决

2.XPath表达式基础知识

/ 逐层提取
text() 提取标签下的文本
//标签名xx 提取所有名为xx的标签
//标签名xx[@属性=‘属性值’] 提取所有名为xx且拥有属性=‘属性值’的标签
直接用@+属性得到的是属性值 /@href

3.小练习

用XPath表达式获取下图中的原创征文

代码：

xpath("//ul[class="ddnewhead"]/li/a/text()").extract()

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/84807.html

赞 (0)

0 0

技术随笔

JDBC之用IDEA连接SQLServer数据库实用教程

000467

小半
2023年2月7日
技术随笔

docker compose 搭建zookeeper集群+kafka集群

000409

小半
2023年1月8日
技术随笔

File类

000208

飞熊
2023年3月10日
技术随笔

图片在＜template＞、＜script＞、＜style＞中的使用方法

000180

小半
2023年1月29日
技术随笔

MySQL-存储引擎

000143

小半
2023年2月1日
技术随笔

UML类图学习

000276

小半
2023年2月13日
技术随笔

链表删除-leetcode19. 删除链表的倒数第 N 个结点

000217

小半
2023年1月16日
技术随笔

解决Ajax跨域访问后台的问题

000304

飞熊
2023年8月10日
技术随笔

yaml的简单了解及运用

000313

小半
2023年1月13日
技术随笔

三天打鱼两天晒网

000221

小半
2023年1月25日
技术随笔

记一次冲突：JsonSerialize注解标注的字段返回两次的错误

000280

小半
2023年2月12日
技术随笔

MySQL-函数

000878

小半
2023年2月1日

极客之音——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！