HTTP请求与响应：Python爬虫技术解析

🕗 发布于 2024-07-20 20:36 http python 爬虫

引言

在Web开发和数据抓取中，理解HTTP协议是至关重要的。HTTP（超文本传输协议）是用于从网络传输超文本到本地浏览器的标准协议。它定义了客户端与服务器之间请求和响应的格式。本文将从HTTP请求和响应的基本结构开始，逐步深入到如何在Python中实现这些操作。

一、HTTP请求与响应基础

1.1 HTTP请求

HTTP请求是客户端（通常是浏览器）向服务器发送的请求，用于获取资源或执行某些操作。一个典型的HTTP请求包含以下部分：

请求行：包括HTTP方法（如GET、POST）、请求的资源的URI（统一资源标识符）和HTTP协议版本。
请求头：包含客户端环境信息、请求体的类型和大小等附加信息。
请求体（可选）：在使用如POST或PUT方法时，请求体中包含要发送给服务器的数据。

1.2 HTTP响应

HTTP响应是服务器对客户端请求的答复。它包含以下部分：

状态行：包括HTTP协议版本、状态码和状态消息。
响应头：包含服务器信息、内容类型、内容长度等附加信息。
响应体：服务器返回的数据，通常是HTML文档、图像或JSON数据。

二、Python中的HTTP请求与响应

2.1 使用`urllib`库

urllib是Python的标准库之一，提供了一套用于处理URL的工具。使用urllib.request可以发送HTTP请求，使用urllib.response可以处理响应。

import urllib.request

# 发送GET请求
response = urllib.request.urlopen('http://example.com')
html = response.read().decode('utf-8')

print(html)

2.2 使用`requests`库

requests是一个更现代、更易用的HTTP库，它提供了更简洁的API和更丰富的功能。使用requests.get可以发送GET请求，使用requests.post可以发送POST请求。

import requests

# 发送GET请求
response = requests.get('http://example.com')
html = response.text

print(html)

2.3 处理请求头和响应头

在发送请求时，我们经常需要设置请求头，比如User-Agent或Accept等。同样，处理响应时，我们也需要查看响应头中的信息，如Content-Type。

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

response = requests.get('http://example.com', headers=headers)
print(response.headers['Content-Type'])

2.4 发送POST请求

POST请求通常用于提交表单数据或上传文件。使用requests.post可以方便地发送POST请求。

import requests

data = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('http://httpbin.org/post', data=data)
print(response.json())

三、处理JavaScript渲染的页面

在某些情况下，页面的内容是通过JavaScript动态生成的。传统的HTTP请求库可能无法获取到这些动态生成的内容。这时，我们可以使用Selenium或Pyppeteer等工具来模拟浏览器行为，获取完整的页面内容。

3.1 使用Selenium

Selenium是一个自动化测试工具，可以用来模拟浏览器操作。通过Selenium，我们可以获取到JavaScript渲染后的页面内容。

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('http://example.com')

html = driver.page_source
print(html)

driver.quit()

3.2 使用Pyppeteer

Pyppeteer是一个Python库，提供了一个高级接口来控制无头版的Chromium。它非常适合用于处理复杂的JavaScript渲染页面。

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('http://example.com')
    html = await page.content()
    print(html)
    await browser.close()

asyncio.run(main())

四、结论

通过本文的探讨，我们了解了HTTP请求与响应的基本结构，并学习了如何在Python中使用urllib和requests库来发送HTTP请求和处理响应。我们还讨论了如何处理JavaScript渲染的页面，这对于爬虫技术来说是一个重要的补充。

参考文献

希望本文能够帮助你更好地理解和应用HTTP请求与响应在Python爬虫技术中的应用。如果你有任何问题或需要进一步的帮助，请随时与我联系。让我们一起探索Python编程的更多可能性！

原文地址：https://blog.csdn.net/weixin_43822401/article/details/140540612

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：B树（B-Tree）数据结构
下一篇：[rustlings]13_error_handling

【go从零单排】上下文（context）
在 Go 语言中，上下文（context）是一个重要的概念，主要用于管理请求的生命周期、传递取消信号、超时控制以及传递请求范围内的值。上下文通常与并发编程相关，尤其是在处理 HTTP 请求和其他 I/
阅读更多2024-11-15
Ubuntu 20.04 配置开发环境(持续更新)
搜狗输入法不能显示中文。
阅读更多2024-11-15
在ubuntu上安装ubuntu22.04并ros2 humble版本的docker容器记录
"registry-mirrors" : ["https://你的.mirror.swr.myhuaweicloud.com"],4、已经打包了ubuntu22
阅读更多2024-11-15
如何在 Ubuntu 22.04 上安装 ownCloud
ownCloud 是一个开源的个人云存储平台，它允许用户在本地服务器上存储和同步文件，提供了一个类似于 Dropbox 或 Google Drive 的服务，但是更加注重隐私和数据控制。文件存储：用户
阅读更多2024-11-15
idea 删除本地分支后，弹窗 delete tracked brank
在 IntelliJ IDEA 中，删除本地分支后弹出 “Delete tracked branch” 的提示，这表示删除的是一个跟踪分支（tracked branch）。具体来说，当前删除的本地分
阅读更多2024-11-15
「JVM详解」
JVM：全称 Java Virtual Machine，即 Java 虚拟机，一种规范，本身是一个虚拟计算机，直接和操作系统进行交互，与硬件不直接交互，而操作系统可以帮我们完成和硬件进行交互的工作
阅读更多2024-11-15
WPF中Prism框架的简单使用
自动匹配导入4.写Login.XAML代码和LoginViewModel代码LoginViewModel如下：5.创建其他的UserControl 并学好MainWindow.XAML和MainWin
阅读更多2024-11-15
Linux——GPIO输入输出裸机实验
在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上的表示可能非常小或甚至没有。在程序启动时，BSS段会被清零，并且其大小会被计算到程序的总内存占用中，尽管它在磁盘上
阅读更多2024-11-15
planRAG运行记录
运行planRAG过程记录
阅读更多2024-11-15
vue面试题8|[2024-11-14]
vue面试题
阅读更多2024-11-15