【Python】使用Selenium的find_element模块获取网页上的大段文字和表格的方法（建议收藏！）

🕗 发布于 2024-12-14 08:56 python selenium 开发语言

发现了一个使用Selenium的find_element模块，快速获取文字和表格的方法，很实在，以后爬网的时候，就不用beautifulSoup 和 pandas的read_html 混起来用了！

文字部分：实现网络节点下，某个节点下的其他子孙节点的文字的拼接
表格部分：实现获取表格，并转为列表格式

话不多说，码上：

1. 获取文字的部分

如果是简单的文字，直接用text就完成了：

xpath_name='//div[@class="example"]'
driver.find_element(By.XPATH,xpath_name).text

但是有时候，有些文字就会分成很多个节点，要把这些文字拼起来就很麻烦，例如：

在这里插入图片描述

有时候在网络节点里，一会是span 标签，一会是a标签，一会是p标签。

就算是用beautifulSoup 来解也很难搞得齐全，用find_element的xpath 来定位也很难搞，也是要考虑层级结构的问题的。

这里可以用上 find_element + 遍历后代节点的方法：

在上面的例子中，我只需要找到id=content 的第一层节点，然后找到该节点下的所有子节点和子孙节点下的text，这样就可以把他们拼凑起来了：

1.1 获取所有子孙节点的写法：

如果你想要从特定的父元素开始获取所有子节点，你可以结合使用标签选择器和.//。

children_elements = parent_element.find_elements(By.XPATH, './/p')

在这个例子中，'.//p'是一个XPath表达式，它意味着“选择当前节点下所有的<p>标签，包括所有层级的后代节点”。

1.2 如果只是获取子节点的话，则是：

children_elements = parent_element.find_elements(By.XPATH, './*')

其中，XPath中的'.'代表当前节点，'/child::* '代表选择当前节点的所有直接子节点。

完整写法：

from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建WebDriver实例，这里以Chrome为例
driver = webdriver.Chrome()

# 打开目标网页
driver.get("你的目标网页URL")

sleep(random.uniform(2, 3))

#获取文字部分
#获取第一层节点，父亲节点
parent_element=driver.find_element(By.ID ,'content')
#获取所有
children_elements = parent_element.find_elements(By.XPATH, './/p')
new_content=''

# 遍历所有找到的<p>标签的后代节点，并打印它们的标签名和文本
for child in children_elements:
    #print(f"Tag: {child.tag_name}, Text: {child.text}")
    new_content=new_content+child.text

print('最后实现的文字：',new_content)

在这里插入图片描述

2. 获取表格的部分

获取表格的逻辑是：

1.使用find_element方法定位到表格元素。
2. 使用get_attribute('outerHTML')打印表格内容（可选）这个方法打印的是含有表格的源码，而非表格的内容
3. for循环遍历表格行和单元格，打印出每一行的单元格文本，以列表的形式显示。

完整逻辑：

from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建WebDriver实例
driver = webdriver.Chrome()

# 打开目标网页
driver.get("http://example.com/some_page_with_tables.html")

# 定位表格元素
table = driver.find_element(By.TAG_NAME, 'table')

# 方法1：打印整个表格的HTML
print(table.get_attribute('outerHTML'))

# 方法2：遍历并打印表格的每一行和单元格内容
rows = table.find_elements(By.TAG_NAME, 'tr')
for row in rows:
    cells = row.find_elements(By.TAG_NAME, 'td')
    cell_texts = [cell.text for cell in cells]
    print(cell_texts)

# 关闭浏览器
driver.quit()

在这里插入图片描述

原文地址：https://blog.csdn.net/Meggie35/article/details/144433278

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[C++]类的继承
下一篇：利用DFT画有限长序列的DTFT

ORACLE逗号分隔的字符串字段，关联表查询
【代码】ORACLE逗号分隔的字符串字段，关联表查询。
阅读更多2024-12-14
传输层7——TCP拥塞控制（重点！！！）
透彻理解TCP实现可靠传输的实现原理，以及实现的全过程。
阅读更多2024-12-14
低代码开发：企业数智化转型中的关键角色与实践案例分析
此外，整体供应链成本降低了25%，这不仅包括了直接的物流成本，还包括了由于库存积压减少而节约的仓储成本，以及由于订单处理效率提高而节约的人力成本等间接成本。通过提供快速、高效、低成本的应用开发能力，低
阅读更多2024-12-14
【JAVA-JNA】如何通过pid找到窗口句柄，然后把窗口置顶0.5.0
【JAVA-JNA】如何通过pid找到窗口句柄，然后把窗口置顶0.5.0
阅读更多2024-12-14
certbot 服务器证书配置
certbot + nginx 服务器证书配置
阅读更多2024-12-14
BFS算法题
正常来说，在我们会了单源BFS的使用后，面对多个起点到一个终点的最短路问题也就是多源BFS，我们最先想到的就是暴力做法，也就是将多个起点分成一份份一个起点到一个终点的单源BFS问题，这样我们每个起点到
阅读更多2024-12-14
ESP32-S3模组上跑通ES8388（30）
ESP32-S3模组上跑通ES8388（30）
阅读更多2024-12-14
搭建Tomcat（二）--反射的应用
上面是一些官方回答，那么究竟是怎么判断的呢？简单而言，tomcat想要确定请求访问的是动态资源还是静态资源，先从动态资源中查找（存在动态资源映射表），若是能从中查到，则返回动态资源，若是不能从动态中匹
阅读更多2024-12-14
删除MySQL的多余实例步骤
删除MySQL配置文件的过程相对简单，但需要谨慎操作。通过定位、删除和验证这三个步骤，我们可以安全地删除不再需要的MySQL配置文件。
阅读更多2024-12-14
HarmonyOS NEXT开发进阶（三）：自定义组件
🔊：自定义组件必须使用struct定义，并且被Component装饰器修饰。在arkTs根组件：就是被装饰器@Entry装饰的入口组件，这也是自定义组件(父组件)。// 根组件(父组件) @ Entr
阅读更多2024-12-14

【Python】使用Selenium的find_element模块获取网页上的大段文字和表格的方法（建议收藏！）

1. 获取文字的部分

1.1 获取所有子孙节点的写法：

1.2 如果只是获取子节点的话，则是：

2. 获取表格的部分

相关文章