python—selenium爬虫

🕗 发布于 2024-07-24 07:48 python selenium 爬虫

文章目录

Selenium与Requests对比
下载对应驱动
- 1.首先我们需要打开edge浏览器，打开设置，找到“关于Microsoft Edge”，点击进入查看浏览器版本。
- 2.查找版本之后，搜索edge驱动下载，进入下载页面，选择对应的版本下载就可以。
使用Selenium爬取脚本实例

Selenium爬虫与Requests在多个方面存在显著差异，这些差异主要体现在它们的工作原理、功能特点、适用场景以及性能表现上。在某些情况下，我们使用Selenium爬取文本内容更好，这里我们先将其与Requests进行对比。

Selenium与Requests对比

一、工作原理

Requests：

Requests是一个HTTP库，用于发送各种HTTP请求（如GET、POST等）。
它直接发送HTTP请求到服务器，并接收服务器的响应，不涉及浏览器环境的模拟。
Selenium：
Selenium是一个自动化测试工具，通过控制浏览器来模拟用户的各种行为，如点击、滚动、填写表单等。
它通过浏览器驱动程序与浏览器进行交互。

二、功能特点

Requests：

简单、快速、轻量级，易于使用和集成。
主要用于发送HTTP请求和接收响应，适用于静态网页内容的抓取。
不具备浏览器自动化功能。

Selenium：

功能强大，能够模拟用户与浏览器的所有交互行为。
适用于动态网页、单页面应用（SPA）以及需要用户交互的网页内容的抓取。

三、性能表现

Requests：

由于不加载JavaScript或CSS等资源，响应时间更短，资源消耗更少。
在处理静态网页内容时，性能表现优异。

Selenium：

需要加载完整的页面资源，因此速度相对较慢。
占用更多的CPU和内存资源，特别是在处理多个浏览器实例或并发请求时。
综上所述，Selenium爬虫与Requests在多个方面存在显著差异。选择哪个工具取决于具体的项目需求、网页类型以及性能要求。对于简单的静态网页内容抓取，Requests可能是更合适的选择；而对于复杂的动态网页、需要用户交互的网页或Web应用程序的抓取，Selenium则更具优势。

下载对应驱动

在使用Selenium之前，我们需要先下载对应浏览器的驱动程序（如 Edge 驱动程序）来与浏览器进行交互。下面我们讲解如何安装驱动。

1.首先我们需要打开edge浏览器，打开设置，找到“关于Microsoft Edge”，点击进入查看浏览器版本。

图例：
在这里插入图片描述

2.查找版本之后，搜索edge驱动下载，进入下载页面，选择对应的版本下载就可以。

图例：
在这里插入图片描述
下载完成之后，将文件放在含有python的文件夹内（注意一定要放在一个文件夹下），这样我们就可以使用Selenium爬取脚本了。

使用Selenium爬取脚本实例

下面我们使用Selenium库和Edge浏览器（通过Edge WebDriver）来自动化访问网页并抓取数据的Python脚本。

1.导入必要的库和模块：

import time

# pip install selenium
# 下载对应版本的驱动 放在python文件下

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.edge.options import Options

time：用于在代码执行过程中添加延时。
webdriver从selenium包中导入，用于控制浏览器。
By从selenium.webdriver.common.by中导入，用于指定元素定位的方式（如XPath、CSS选择器等）。
expected_conditions（别名EC）和WebDriverWait从selenium.webdriver.support和selenium.webdriver.support.ui中导入，用于设置等待条件，以便在元素可用之前暂停执行。
Options从selenium.webdriver.edge.options中导入，用于配置Edge浏览器的启动选项，如设置为无头模式。

2.设置Edge浏览器的无头模式：

if __name__ == '__main__':

    # 无头模式
    opt = Options()
    opt.add_argument("--headless")

创建Options实例，并通过add_argument(“–headless”)设置浏览器在无头模式下运行，即不显示浏览器界面。

3.初始化Edge WebDriver：

    driver = webdriver.Edge(options=opt)

使用webdriver.Edge(options=opt)创建Edge WebDriver实例，传入之前配置的选项opt。

4.访问网页：

    # 请求页面
    driver.get('https://101.qq.com/#/hero')

使用driver.get(‘https://101.qq.com/#/hero’)访问指定的网页地址。

5.等待页面元素加载：

    # 强制等待
    time.sleep(10)
    # 等待某个元素加载完成
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.XPATH,"//ul[@class='hero-list']"))
    )

使用WebDriverWait和EC.presence_of_element_located等待页面上某个元素（这里是类名为hero-list的ul元素）出现。这是一种比time.sleep()更智能的等待方式，因为它会等待直到条件满足（元素出现）或达到最大等待时间（这里是10秒）。

6.查找并遍历列表元素：

    li_list = driver.find_elements(By.XPATH,"//ul[@class='hero-list']/li")

    for li in li_list:
        img_url = li.find_element(By.XPATH,"div/div/img").get_attribute("src")
        hero_name = li.find_element(By.XPATH,"div/p").text
        print(img_url,hero_name)

使用find_elements方法通过XPath定位到ul[@class=‘hero-list’]下的所有li元素，并将它们存储在li_list列表中。
遍历li_list中的每个li元素，对于每个元素：

使用find_element和XPath定位到该li元素内的img标签，并获取其src属性（即图片URL）。
同样地，定位到该li元素内的p标签，并获取其文本内容（即英雄名称）。
打印出图片URL和英雄名称。

7.关闭浏览器:

    driver.close()

    pass

使用driver.close()关闭浏览器。
这段代码演示了如何使用Selenium和Edge WebDriver来自动化访问一个网页，等待页面上的特定元素加载完成，然后抓取该页面上特定列表项中的图片URL和文本内容。

原文地址：https://blog.csdn.net/2301_77698138/article/details/140645449

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【BUG】已解决：TypeError: expected string or bytes-like object
下一篇：uniapp从入坑到出土（2-初始化你的uniapp项目）

【stable diffusion模型】Stable diffusion模型分几种？一文详解，入门必看！
在Stable Diffusion中，模型并不只有一种，不同插件有不同的模型，分别作用于不同的功能。今天小元老师就带大家一起来学习一下～01大模型也就是stable diffusion模型，在默认界面
阅读更多2024-11-14
每日小练：Day2
题目描述：这道题主要考察B盒是不是A盒的子集，我们可以通过哈希表来做。
阅读更多2024-11-14
记录使用大模型过程中遇到的幻觉示例
我怀疑是这个应为这个模型比较新或者相关资料比较少，导致LLM并不认识它，所以再用一个知名度和流传度比较广的模型来试一下，它可以准确的回答。单开一篇，用来持续记录在使用通义千问过程中发现的幻觉问题，用来
阅读更多2024-11-14
springboot育婴经验分享平台-计算机设计毕业源码06078
随着现代社会对育儿知识的需求不断增长，家长们渴望找到一个可靠、便捷的平台来分享和获取育婴经验。为此，我们设计并实现了一个基于SpringBoot的育婴经验分享平台。该平台旨在为家长们提供一个互动交流的
阅读更多2024-11-14
Django 2024全栈开发指南（一）：框架简介、环境搭建与项目结构
本文主要介绍一下Django框架的基础知识、运行环境的搭建，以及开发工具的选择。同时，通过构建一个最基本的基于Django框架的Web应用程序（应用程序一般简称应用），帮助读者快速掌握Django框架
阅读更多2024-11-14
小试银河麒麟系统OCR软件
OCR （Optical Character Recognition，光学字符识别），最初是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形
阅读更多2024-11-14
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
Python3.11.9+selenium，获取图片验证码以及输入验证码数字
阅读更多2024-11-14
【操作系统】每日 3 题（二十二）
📚专栏简介：在这个专栏中，我将会分享操作系统面试中常见的面试题给大家~
阅读更多2024-11-14
python+LLM技术栈的介绍-后端
Django 拥有活跃的开发者社区和丰富的文档资源，支持多种数据库（如 MySQL、PostgreSQL、SQLite 和 Oracle），并且兼容 WSGI 和 FastCGI 服务器。此外，Dja
阅读更多2024-11-14
Java使用Thumbnails进行图片处理
Java使用Thumbnails进行图片处理
阅读更多2024-11-14

python—selenium爬虫

文章目录

Selenium与Requests对比

一、工作原理

二、功能特点

三、性能表现

下载对应驱动

1.首先我们需要打开edge浏览器，打开设置，找到“关于Microsoft Edge”，点击进入查看浏览器版本。

2.查找版本之后，搜索edge驱动下载，进入下载页面，选择对应的版本下载就可以。

使用Selenium爬取脚本实例

1.导入必要的库和模块：

2.设置Edge浏览器的无头模式：

3.初始化Edge WebDriver：

4.访问网页：

5.等待页面元素加载：

6.查找并遍历列表元素：

7.关闭浏览器:

相关文章