网络爬虫—XPath表达式

导读:本篇文章讲解 网络爬虫—XPath表达式,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

1.XPath表达式与正则表达式的简单比较

(1)XPath表达式的执行效率更高
(2)正则表达式的功能会更加强大一些
(3)一般来说,优先选用XPath表达式,XPath表达式解决不了的再用正则表达式取解决

2.XPath表达式基础知识

  • /     逐层提取
  • text()    提取标签下的文本
  • //标签名xx   提取所有名为xx的标签
  • //标签名xx[@属性=‘属性值’]   提取所有名为xx且拥有属性=‘属性值’的标签
  • 直接用@+属性得到的是属性值   /@href

3.小练习

用XPath表达式获取下图中的原创征文
在这里插入图片描述
代码:

xpath("//ul[class="ddnewhead"]/li/a/text()").extract()

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/84807.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!