xpath应用大全

🕗 发布于 2024-09-25 23:04 html 前端

一、xpath在爬虫中的应用

1、/div 表示从根节点开始选取div节点

2、/span 表示从根节点开始选取span节点

3、//a 表示选取文档中所有a节点而不考虑其位置

4、@class 表示选取名为class的属性

5、 . 表示选取当前节点

6、 .. 表示选取当前节点的父节点

7、/div/a 表示从根节点开始选取div节点下的a节点

8、 /div/a[2]/img 表示从根节点开始选取div节点下的第二个a节点下的img节点

9、//div[@class='header-wrapper' 表示选取所有属性class的值为header-warpper的div节点

10、//* 表示选取文档中所有元素

11、//@* 表示选取文档中所有带属性的元素

12、/div/p/text() 表示选取p节点的文本内容

13、/div[contains(@class,"post")] 表示选取带有class属性且包含“post”的所有的div节点，取反//div[not(contains(@class,"post"))]

14、//div/p[last()-1] 表示选取div下倒数第二个p节点

15、//div/p[position()>1] 表示选取div下第二个p节点后的所有兄弟节点

二、xpath在爬虫中的应用场景

定位元素：使用XPath表达式可以精确地定位到网页中的特定元素，如标题、链接、图片等。
提取数据：结合XPath和爬虫工具（如Python的lxml、BeautifulSoup等库），可以轻松地提取网页中的数据，如商品价格、新闻标题、文章正文等。
处理复杂的HTML结构：面对复杂的HTML结构，XPath的灵活性和强大功能使其成为处理这类问题的理想选择。
自动化表单填写：在网页自动化测试或数据提交过程中，XPath可以用来定位表单元素，并模拟用户输入。

三、使用xpath的基本步骤

分析网页结构：首先，你需要分析目标网页的HTML结构，确定要提取的数据位于哪些元素中。
编写XPath表达式：根据网页结构，编写XPath表达式来定位并提取所需的数据。XPath表达式可以使用标签名、属性、位置等信息来构建。
使用XPath提取数据：在你的爬虫脚本中，使用XPath解析库（如lxml、BeautifulSoup等）来执行XPath表达式，并提取数据。

四、xpath进阶用法

位置谓词：
- //ul/li[1]：选择ul下的第一个li元素。
- //div[@class='article']/p[position()=last()]：选择class为article的div下的最后一个p元素。
比较运算符：
- //p[@id='para1']：选择id属性为para1的p元素。
- //a[@href!='#']：选择href属性不等于#的a元素。
逻辑运算符：
- //input[@type='text' and (@name='username' or @name='email')]：选择type为text且name为username或email的input元素。
内置函数：
- contains(str1, str2)：判断str1是否包含str2。
- starts-with(str, prefix)：判断字符串str是否以prefix开头。
- substring-before(str, delim)：返回str中delim之前的子字符串。
- substring-after(str, delim)：返回str中delim之后的子字符串。

原文地址：https://blog.csdn.net/m0_75068951/article/details/142531009

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

C++: 继承
下面我们看到Person是父类，也称作基类。Student是子类，也称作派生类。1. 很多人说C++语法复杂，其实多继承就是一个体现。有了多继承，就存在菱形继承，有了菱形继承就有菱形虚拟继承，底层实
阅读更多2024-09-26
Linux：编译，调试和Makefile
368 clean:在makefile中可以定义变量，$ 是从bin 或者 src中提取内容，感觉就像指针和解引用一样，定义变量时等号两边最近的两个变量不可有空格，src可以跟多个cpp(或其他)变
阅读更多2024-09-26
Centos7.9安装.Net 8.0框架
在Centos7.9编译运行Net8.0项目时，会用到.Net8.0框架。所以我实操了在Centos7.9安装.Net8.0框架。本文记录了相关操作。
阅读更多2024-09-26
自学网络安全（黑客技术）2024年—三个月学习计划
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-09-26
企业EMS -能源管理系统-能源在线监测平台
一、介绍基于SpringCloud的能管管理系统-能源管理平台源码-能源在线监测平台-双碳平台源码-SpringCloud全家桶-能管管理系统源码。
阅读更多2024-09-26
LLM大模型驱动的RPA
从本质上讲，每个企业都是一系列流程的集合。从潜在客户生成和客户获取到财务规划和采购，这些流程相互关联，一个流程的输出为另一个流程提供输入。随着企业的发展，其流程数量也在增加，从而形成了一个错综复杂的数
阅读更多2024-09-26
学习笔记&&每日一题
步骤 1) 14 是偶数，除以 2 得到 7。步骤 3） 6 是偶数，除以 2 得到 3。步骤 5） 2 是偶数，除以 2 得到 1。步骤 1） 8 是偶数，除以 2 得到 4。步骤 2） 4 是偶数
阅读更多2024-09-26
vue3中storeToRefs让store中的结构出来的数据也能变成响应式
vue3中storeToRefs让store中的结构出来的数据也能变成响应式
阅读更多2024-09-26
做一个数字化时代的保守主义者
数字化时代，做一个保守主义者有何不好
阅读更多2024-09-26
昆仑万维发布顶级奖励模型：Skywork-Reward 领跑 RewardBench
这些样本用于在 Gemma-2-27B-it 和 Llama-3.1-8B-Instruct 这两个基座模型上进行微调，从而得到了最终的 Skywork-Reward 奖励模型。昆仑万维此次发布的 S
阅读更多2024-09-26

xpath应用大全

相关文章