数据爬取技术进阶：从表单提交到页面点击的实现

🕗 发布于 2024-11-21 04:09 python requests Selenium 百度贴吧 tieba.baidu.com

爬虫代理

引言

随着互联网的迅速发展，数据需求日益多样化。简单的静态页面爬取已难以满足现代应用场景的需求，特别是在涉及到登录、表单提交、页面点击等交互操作的情况下，数据的获取变得更加复杂。为了解决这些难题，使用代理 IP 是必不可少的手段，它能有效规避网站的反爬虫机制，防止 IP 被封禁。本文将结合 Python 和代理 IP 技术，详细讲解如何从表单提交到页面点击，完成动态网页的数据爬取。

百度贴吧作为中文社区平台，涵盖了资讯、视频、图片、知道、文库等多个领域，为用户提供了广泛的交流与分享空间。贴吧的分类覆盖面极广，包括娱乐明星、体育、小说、生活、游戏、动漫、地区等，几乎涉及用户日常生活的方方面面。这种多样化的内容布局不仅为数据爬取提供了丰富的数据源，也显著增加了爬取的复杂性和技术挑战。

正文

1. 表单提交和页面点击概述

在现代网页中，许多数据需要通过用户交互才能显示。这种交互包括表单提交、页面点击、动态加载等。我们可以利用 Python 的 requests 和 Selenium 库来模拟这些用户行为，实现表单提交和页面点击等操作。

表单提交：常用于登录界面、搜索功能，模拟用户填写表单并提交请求。
页面点击：用于模拟用户点击网页按钮或链接，触发动态内容加载。

2. 使用代理 IP

在进行大规模爬取时，代理 IP 是绕过反爬虫机制的关键。本文将使用爬虫代理服务进行配置，通过在请求中添加代理，避免因频繁请求导致 IP 被限制。

代理配置示例：

# 配置IP信息 亿牛云爬虫代理加强版 www.16yun.cn
proxy = {
    "http": "http://用户名:密码@域名:端口",
    "https": "https://用户名:密码@域名:端口"
}

3. 实现流程

为了演示表单提交和页面点击的实际应用，本文选择百度贴吧（https://tieba.baidu.com/index.html）作为爬取目标。实现流程如下：

使用代理 IP 和伪装请求头：避免被检测为爬虫。
模拟登录获取 Cookie：通过 Selenium 模拟登录操作。
发帖和页面点击操作：在贴吧内模拟发帖和页面交互。
采集帖子数据：获取指定贴吧内的帖子列表和详情。

实例代码

环境准备

安装所需 Python 库和浏览器驱动：

pip install requests selenium

下载并安装 ChromeDriver：ChromeDriver 下载链接

代码实现

import time
import requests
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options

# 配置IP信息 亿牛云爬虫代理加强版 www.16yun.cn
proxy_host = "proxy.16yun.cn"
proxy_port = "12345"
proxy_user = "your_username"
proxy_pass = "your_password"


proxy = {
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"
}

# 请求头配置
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}

# 初始化 Selenium 驱动
def init_driver():
    options = Options()
    options.add_argument(f'--proxy-server={proxy["http"]}')
    options.add_argument('--headless')  # 无头模式
    options.add_argument('--disable-gpu')
    options.add_argument('--ignore-certificate-errors')
    
    service = Service(executable_path='path/to/chromedriver')
    driver = webdriver.Chrome(service=service, options=options)
    return driver

# 模拟登录百度贴吧
def login_tieba(driver):
    driver.get("https://tieba.baidu.com/index.html")
    
    # 点击登录按钮
    login_button = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.LINK_TEXT, "登录"))
    )
    login_button.click()
    
    time.sleep(3)
    
    # 切换到用户名密码登录
    driver.find_element(By.XPATH, "//p[contains(text(),'用户名密码登录')]").click()
    
    # 输入用户名和密码
    username_input = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "TANGRAM__PSP_11__userName"))
    )
    username_input.send_keys("your_baidu_username")

    password_input = driver.find_element(By.ID, "TANGRAM__PSP_11__password")
    password_input.send_keys("your_baidu_password")
    
    # 点击登录
    login_submit = driver.find_element(By.ID, "TANGRAM__PSP_11__submit")
    login_submit.click()
    
    time.sleep(5)
    print("登录成功")

# 发帖功能
def post_tieba(driver):
    driver.get("https://tieba.baidu.com/f?kw=python")

    post_button = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.XPATH, "//a[contains(@class,'j_th_tit')]"))
    )
    post_button.click()

    title_input = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CLASS_NAME, "tb-editor-editarea"))
    )
    title_input.send_keys("Python爬虫发帖测试")

    content_input = driver.find_element(By.CLASS_NAME, "tb-editor-editarea")
    content_input.send_keys("这是通过Python脚本自动发帖的测试内容。")
    
    submit_button = driver.find_element(By.CLASS_NAME, "j_submit_btn")
    submit_button.click()
    
    print("发帖成功")

# 采集帖子数据
def scrape_posts(driver):
    driver.get("https://tieba.baidu.com/f?kw=python")
    posts = driver.find_elements(By.CLASS_NAME, 'j_th_tit')
    for post in posts[:5]:
        print(post.text, post.get_attribute('href'))

# 主程序入口
if __name__ == "__main__":
    driver = init_driver()
    try:
        login_tieba(driver)
        post_tieba(driver)
        scrape_posts(driver)
    finally:
        driver.quit()

结论

本文通过 Python 的 requests 和 Selenium 库，结合代理 IP 技术，详细展示了如何在动态网页环境下实现从表单提交到页面点击的数据爬取。选取百度贴吧作为示例，完整演示了登录、发帖和数据采集的流程。

通过本案例可以看出，在面对现代网页复杂的交互和反爬机制时，结合代理 IP、模拟浏览器操作和请求伪装，是实现高效数据爬取的关键。

原文地址：https://blog.csdn.net/ip16yun/article/details/143850863

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MySQL更换瀚高语法更换
下一篇：android版本ijkplayer2024编译笔记

使用docker安装RocketMQ
v /docker/rocketmq/data/namesrv/logs:/root/logs | 把容器内的/root/logs日志目录挂载到宿主机的 /docker/rocketmq/data/n
阅读更多2024-12-02
Y20030025基于php+mysql的幼儿健康管理系统设计与实现源代码配置文档
在信息化时代的浪潮中，幼儿健康管理面临着前所未有的挑战与机遇。为了更好地满足家长和幼儿园对幼儿健康管理的需求，我们致力于开发一套基于PHP的幼儿健康管理系统。这一系统的开发，旨在通过技术手段提升幼儿健
阅读更多2024-12-02
Github 2024-12-01 开源项目月报 Top20
根据Github Trendings的统计，本月(2024-12-01统计)共有20个项目上榜。
阅读更多2024-12-02
Redis中常见的延迟问题
使用复杂度高的命令，执行命令时就会耗时存储大key：如果一个key写入的数据非常大，Redis在分配内存、删除大key时都会耗时，并且持久化AOF的写回策略是always时会影响Redis性能集中过期
阅读更多2024-12-02
C#VB.NET开发整体一键国际化显示
-------------------------------项目启动根据设置的语言加载对应语言内容进行显示。---------------------------翻译完毕后多语言系统进行语言编译生成
阅读更多2024-12-02
数据结构-简单排序
【代码】数据结构-简单排序。
阅读更多2024-12-02
亚马逊IP关联是什么？
亚马逊IP关联是指在亚马逊平台上使用的IP地址或IP地址段被认定为相关联，可能导致一些特定的限制或操作问题。这种关联通常是由于多个账户或操作在同一IP地址下进行，或者存在多个操作被认为有关联的迹象，可
阅读更多2024-12-02
前端入门指南：模块打包器是什么？模块打包器的工作原理与实践
在前端开发的生态系统中，随着项目复杂度和规模的不断提升，代码管理和优化变得至关重要。模块化开发作为一种有效的代码组织方式，极大地提升了代码的可维护性和复用性。然而，面对大量的模块和复杂的依赖关系，如何
阅读更多2024-12-02
vue3项目中使用星火API
通过阅读文档可知我们需要返回给api接口的数据需要authorization，然后对话内容需要设置message设置role为user则content的内容是使用者的提问。在node环境epxress
阅读更多2024-12-02
当你访问一个网站时，数据是怎么传输的呢
电脑访问网站时数据的传输过程是一个涉及多个层次、多种协议以及众多网络设备协同工作的复杂体系。从域名解析开始，到 HTTP 请求构建、各层协议的封装、数据在网络中的传输，再到服务器端的处理和响应返回，每
阅读更多2024-12-02