使用 Selenium 和 Python 爬取腾讯新闻：从基础到实践

🕗 发布于 2024-12-02 10:43 python selenium 开发语言

使用 Selenium 和 Python 爬取腾讯新闻：从基础到实践

在这篇博客中，我们将介绍如何利用 Selenium 和 Python 爬取腾讯新闻的内容，并将结果保存到 CSV 文件中。本教程包含以下内容：

项目简介
依赖安装
实现功能的代码
实现中的关键技术
完整代码
运行结果与注意事项

1. 项目简介

腾讯新闻网站包含丰富的新闻资源。我们的目标是：

爬取文章的标题和部分内容（200个字符）。
点击“下一页”按钮后跳转到新页面并继续爬取。
处理爬取内容中的特殊字符。
将爬取到的内容保存到 CSV 文件中。

本项目适合初学者学习 Selenium 的基础操作，例如页面切换和元素交互。

2. 依赖安装

在开始前，需要安装以下依赖：

Python 环境：确保安装了 Python 3.7 或以上版本。
Selenium：用于网页自动化。
WebDriver Manager：自动管理浏览器驱动。

运行以下命令安装必要的库：

pip install selenium webdriver-manager pandas

3. 实现功能的代码

以下是主要功能实现：

1. Selenium 驱动设置

通过 WebDriver Manager 自动管理 ChromeDriver，避免手动下载和配置。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager

def setup_driver():
    options = Options()
    options.add_argument("--headless")  # 无头模式运行
    options.add_argument("--disable-gpu")
    
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
    return driver

2. 点击下一页并切换窗口

实现点击下一页按钮，切换到新打开的窗口，并关闭旧窗口。

from selenium.webdriver.common.by import By
import time

def click_next_and_switch_window(driver):
    current_window = driver.current_window_handle
    next_button = driver.find_element(By.XPATH, '/html/body/div[3]/div[1]/div[3]/div/div/ul/li[6]/div[2]/h3/a')
    next_button.click()
    time.sleep(3)
    
    all_windows = driver.window_handles
    driver.close()
    driver.switch_to.window(all_windows[-1])
    time.sleep(2)

3. 爬取文章内容

爬取标题和正文的前200个字符，并使用正则表达式清理标题。

import re

def crawl_tencent_news(start_url, max_articles=50):
    driver = setup_driver()
    articles = []
    driver.get(start_url)
    time.sleep(2)
    for _ in range(max_articles):
        try:
            title = driver.find_element(By.XPATH, '//*[@id="dc-normal-body"]/div[3]/div[1]/div[1]/div[2]/h1').text
            title = re.sub(r"[^a-zA-Z0-9\u4e00-\u9fa5\s。，！？]", "", title)
            content = driver.find_element(By.XPATH, '//*[@id="ArticleContent"]/div[2]/div').text
            short_content = content[:200]
            articles.append({"Title": title, "Content": short_content})
            click_next_and_switch_window(driver)
        except:
            break
    driver.quit()
    return articles

4. 保存为 CSV

将爬取到的内容保存到 CSV 文件中。

import pandas as pd

def save_to_csv(articles, filename):
    df = pd.DataFrame(articles)
    df.to_csv(filename, index=False, encoding="utf-8")
    print(f"已将 {len(articles)} 篇文章保存到 {filename}.")

4. 完整代码

以下是完整代码整合：

import re
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
import time
import pandas as pd

def setup_driver():
    options = Options()
    options.add_argument("--headless")
    options.add_argument("--disable-gpu")
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
    return driver

def click_next_and_switch_window(driver):
    current_window = driver.current_window_handle
    next_button = driver.find_element(By.XPATH, '/html/body/div[3]/div[1]/div[3]/div/div/ul/li[6]/div[2]/h3/a')
    next_button.click()
    time.sleep(3)
    all_windows = driver.window_handles
    driver.close()
    driver.switch_to.window(all_windows[-1])
    time.sleep(2)

def crawl_tencent_news(start_url, max_articles=50):
    driver = setup_driver()
    articles = []
    driver.get(start_url)
    time.sleep(2)
    for _ in range(max_articles):
        try:
            title = driver.find_element(By.XPATH, '//*[@id="dc-normal-body"]/div[3]/div[1]/div[1]/div[2]/h1').text
            title = re.sub(r"[^a-zA-Z0-9\u4e00-\u9fa5\s。，！？]", "", title)
            content = driver.find_element(By.XPATH, '//*[@id="ArticleContent"]/div[2]/div').text
            short_content = content[:200]
            articles.append({"Title": title, "Content": short_content})
            click_next_and_switch_window(driver)
        except:
            break
    driver.quit()
    return articles

def save_to_csv(articles, filename):
    df = pd.DataFrame(articles)
    df.to_csv(filename, index=False, encoding="utf-8")
    print(f"已将 {len(articles)} 篇文章保存到 {filename}.")

def main():
    start_url = "https://news.qq.com/rain/a/20241201A03DNQ00"
    articles = crawl_tencent_news(start_url, max_articles=50)
    if articles:
        save_to_csv(articles, "tencent_articles.csv")

if __name__ == "__main__":
    main()

5. 运行结果与注意事项

结果

运行代码后，将爬取到的文章标题和内容保存到 tencent_articles.csv 文件中，数据示例如下：

Title	Content
腾讯新闻标题示例	这是文章内容的前200个字符…

注意事项

网络延迟：需要确保网络连接畅通，避免加载超时。
页面变化：目标网站的结构可能会变化，需定期更新 XPath。
反爬机制：添加 time.sleep() 避免触发反爬机制。

希望这篇博客能帮助你理解和实践 Selenium 爬虫的开发过程！如有疑问，请随时留言讨论！

原文地址：https://blog.csdn.net/liaoqingjian/article/details/144176453

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Flink维表join
下一篇：Hive分区表新增字段并指定位置

uni-app开发收货地址管理
收货地址在个人中心的我的地址里面，点击我的地址可以查看我的收货地址列表，可以新增收货地址，点击特定收货地址可以编辑和删除该地址信息。// 加载loding。
阅读更多2024-12-27
hive的存储格式
hive5种存储格式的区别
阅读更多2024-12-27
基于 MATLAB 的图像增强技术分享
MATLAB 的图像处理工具箱提供了大量用于图像增强和处理的函数，如imread用于读取图像，imwrite用于保存图像，rgb2gray用于将彩色图像转换为灰度图像，imhist用于计算图像的直方图
阅读更多2024-12-27
taiwindcss
注意：一定通过px tailwindcss init方式创建。6.问题，如果这几个步骤发现没有实现，删除包以后重新试一下。5.因为tailwindcss是依赖于postcss。创建postcss.co
阅读更多2024-12-27
“Gold-YOLO：基于聚合与分发机制的高效目标检测新范式”
Gold-YOLO是一种新型高效的目标检测模型，它通过引入聚合和分发机制显著提升了多尺度特征融合的能力。Gold-YOLO通过其创新的GD机制，在目标检测领域实现了最佳性能，尤其是在处理多尺度物体时。
阅读更多2024-12-27
典型常见的基于知识蒸馏的目标检测方法总结一
使用feature propagation layer [29]将voxel特征转换为point feature。
阅读更多2024-12-27
CSS系列（37）-- Overscroll Behavior详解
CSS之旅第三十七站
阅读更多2024-12-27
最短路径C++，Dijkstra
第一行为有向图中点的数量n（各点从0到n-1编号）第二行为边的数量m第三行为要求其间最短路径的两个点第四行起为m条边的信息，包括起点、终点和路径长度（保证长度是整数，且绝对值不大于100），以空格隔开
阅读更多2024-12-27
题海拾贝：蓝桥杯 2020 省AB 乘法表
输出P进制下的乘法表。P 进制中大于等于 10 的数字用大写字母 A、8、C、.·表示。九九乘法表是学习乘法时必须要掌握的。在不同进制数下，需要不同的乘法表。给定 P，请输出P 进制下的乘法表。
阅读更多2024-12-27
力扣-数据结构-3【算法学习day.74】
##我做这类文章一个重要的目的还是给正在学习的大家提供方向（例如想要掌握基础用法，该刷哪些题？建议灵神的题单和代码随想录）和记录自己的学习过程，我的解析也不会做的非常详细，只会提供思路和一些关键点，力
阅读更多2024-12-27

使用 Selenium 和 Python 爬取腾讯新闻：从基础到实践