网络爬虫入门（学习笔记）

🕗 发布于 2024-07-20 05:41 爬虫

爬取网页源代码

抓取百度首页的HTML源代码，并将其保存到一个名为baidu.html的文件中。打开这个文件，可以看到一个和百度首页一模一样的页面。

from urllib.request import urlopen

# 发送请求并获取响应
response = urlopen("http://www.baidu.com")

# 读取响应内容并解码为字符串
web_content = response.read().decode("utf-8")

# 将抓取到的网页内容保存到文件中
with open("baidu.html", mode="w", encoding="utf-8") as file:
    file.write(web_content)

网页请求过程

F12的使用、HTTP协议

可以使用Chrome浏览器，按下F12打开开发者工具。

Elments：JavaScript代码以及用户操作之后显示的页面效果
Console：运行JavaScript代码片段，显示网页运行时的日志、错误和警告信息

Sources：查看和调试网页的源代码文件

Network：查看网页的所有网络请求

HTTP（HyperText Transfer Protocol，超文本传输协议）是用于传输超文本（如HTML）的应用层协议，是现代Web通信的基础。它定义了客户端（如Web浏览器）和服务器之间如何请求和传递数据。
HTTP协议把一条消息分为三大块内容，无论是请求还是响应都是三块内容。

请求行：请求方式(get/post)，请求url地址，协议版本
请求头：提供了附加信息，帮助服务器处理请求
请求体：一般放一些请求参数
状态行：协议版本，状态码，状态文本
响应头：提供了一些附加信息，帮助客户端处理响应
响应体：服务器返回的真正客户端要用的内容(HTML,json)等

请求头的重要内容

User-Agent：标识请求的来源，告诉服务器客户端的身份

Referer：指示当前请求的来源页面URL，用于防盗链和反爬虫，服务器可以通过Referer头判断请求是否合

Cookie：存储和传递会话信息和用户信息，通常用于身份验证和跟踪用户状态。在爬虫中，通过设置合适的Cookie，可以模拟登录后的状态，访问需要身份验证的页面。

响应头的重要内容

cookie: 本地字符串数据信息(用户登录信息, 反爬的token)
各种字符串，防止攻击和反爬

请求方式

GET：

作用：请求从服务器获取资源。
特点：参数包含在URL中，适合请求静态资源或查询操作。
用途：爬取网页内容，获取数据。

POST：

作用：向服务器提交数据。
特点：参数包含在请求体中，适合提交表单、上传文件等操作。
用途：模拟用户登录，提交表单数据。

requests入门

案例1：搜狗搜索——保存搜索内容的页面

import requests
import time
import random

# 提示用户输入搜索关键字
search_query = input("请输入你要搜索的内容:")

# 构造请求URL
url = f"https://www.sogou.com/web?query={search_query}"

# 定义请求头，模拟浏览器请求
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 "
                  "Edg/126.0.0.0 ",
    "Referer": "https://www.sogou.com/",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",
    "Accept-Encoding": "gzip, deflate, br, zstd"
}

# 使用会话对象来管理Cookies和保持状态
session = requests.Session()

# 发送GET请求并获取响应
response = session.get(url, headers=headers)

# 检查响应状态码，确保请求成功
if response.status_code == 200:
    # 打开一个文件，用于保存响应内容
    with open("sogou_search_results.html", mode="w", encoding="utf-8") as file:
        # 将响应内容写入文件
        file.write(response.text)
    print("搜索结果已保存到sogou_search_results.html文件中。")
else:
    # 如果请求失败，打印错误信息
    print(f"请求失败，状态码: {response.status_code}")

# 增加请求间隔，模拟真实用户行为
time.sleep(random.uniform(1, 3))

请输入你要搜索的内容:你好
搜索结果已保存到sogou_search_results.html文件中。

案例2：百度翻译——获取翻译后的内容

import requests

# 提示用户输入要翻译的英语单词
english_word = input("请输入你要翻译的英语单词:")

# 准备POST请求的数据
data = {
    "kw": english_word  # 请求参数，与抓包工具里的参数一致
}

# 发送POST请求到百度翻译的sug接口
response = requests.post("https://fanyi.baidu.com/sug", data=data)

# 解析返回的JSON数据
response_json = response.json()

# 打印返回字典中第一个数据的翻译内容
if response.status_code == 200:
    if 'data' in response_json:
        first_translation = response_json['data'][0]['v']
        print(f"翻译结果: {first_translation}")
    else:
        print("未找到相关翻译结果。")
else:
    print(f"请求失败，状态码: {response.status_code}")

请输入你要翻译的英语单词:hello
翻译结果: int. 打招呼; 哈喽，喂; 你好，您好; 表示问候 n. “喂”的招呼声或问候声 vi. 喊“喂

案例3：豆瓣电影——保存豆瓣电影分类排行榜（剧情片）的top100

import csv
import requests

# 请求URL和参数
url = 'https://movie.douban.com/j/chart/top_list'
params = {
    'type': '11',        # 类型，这里是剧情片类型
    'interval_id': '100:90',  # 评分区间，表示评分在90到100之间
    'action': '',        # 动作参数，此处为空
    'start': '0',        # 开始取数据的索引，从第一部电影开始取
    'limit': '100',       # 每次取出的电影数量
}

headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
                  "(KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}

# 发送GET请求并获取响应
response = requests.get(url=url, params=params, headers=headers)

# 将响应内容保存为JSON文件
if response.status_code == 200:
    data = response.json()
    with open('./douban_movies.csv', 'w', encoding='utf-8', newline='') as csvfile:
        fieldnames = ['rank', 'title', 'score', 'types', 'regions', 'release_date', 'actors']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

        writer.writeheader()
        for movie in data:
            writer.writerow({
                'rank': movie['rank'],
                'title': movie['title'],
                'score': movie['score'],
                'types': '/'.join(movie['types']),
                'regions': '/'.join(movie['regions']),
                'release_date': movie['release_date'],
                'actors': '/'.join(movie['actors']),
            })

    print('电影数据已保存到 douban_movies.csv 文件中。')
else:
    print(f'请求失败，状态码: {response.status_code}')

电影数据已保存到 douban_movies.csv 文件中。

案例4：下载图片——从豆瓣电影网站中下载一张海报

import requests


def download_image(url, file_name):
    try:
        # 发送GET请求获取图片数据
        response = requests.get(url)
        if response.status_code == 200:
            # 从URL中提取文件名作为保存的文件名，将图片内容写入文件
            with open(file_name, mode="wb") as f:
                f.write(response.content)    # 字节
            print(f"图片已保存为 {file_name}")
        else:
            print(f"请求失败，状态码: {response.status_code}")
    except requests.exceptions.RequestException as e:
        print(f"请求异常: {e}")


# 示例：从豆瓣中下载一张电影海报
image_url = "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg"
file_name = "Example.jpg"

download_image(image_url, file_name)

图片已保存为 Example.jpg

原文地址：https://blog.csdn.net/weixin_74254879/article/details/140534224

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：网络请求之urllib.parse的使用
下一篇：样本权重的艺术：Scikit-Learn中的数据加权策略

解决 Spring Boot 中 `Ambiguous mapping. Cannot map ‘xxxController‘ method` 错误
在使用 Spring Boot 开发 Web 应用时，经常会遇到各种各样的错误。其中一种常见的错误是。本文将详细介绍这个错误的原因及解决方法，帮助开发者快速定位并解决问题。解决错误的关键在于确保每个方
阅读更多2024-11-15
数据分析案例-笔记本电脑价格数据可视化分析
本实验数据集来源于Kaggle，原始数据集共有1303条数据，13个变量，各变量含义如下：0 laptop_ID-数字-产品ID1 Company-字符串-笔记本电脑制造商2 Product-字符串-
阅读更多2024-11-15
Linux 如何查看当前系统版本的详细信息？
系统中基本都存在，所以是一种标准的获取系统信息的方式。命令以标准的方式提供详细的发行版信息。发行版的说明文件一般位于。
阅读更多2024-11-15
初级数据结构——栈
数据结构栈（Stack）是一种线性的数据结构，它只允许在序列的一端（称为栈顶）进行插入和删除操作。这种特性使得栈成为许多算法和问题解决中的有力工具。栈是一种简单而强大的数据结构，它遵循后进先出的原则，
阅读更多2024-11-15
网络安全练习之 ctfshow_web
根据前面得到的qq邮箱中的qq号查询用户，目前电脑版的QQ添加好友好像不能查看详细信息，手机版的可以看到对方所在地为陕西西安。路径是：/editor/attached/file/tmp/html/no
阅读更多2024-11-15
Python 三种方式实现自动化任务
本文介绍了用Python实现机器人过程自动化的三个包，方便读者选择、对比学习。
阅读更多2024-11-15
C++基础：Pimpl设计模式的实现
PIMPL （ Private Implementation 或 Pointer to Implementation ）是通过一个私有的成员指针，将指针所指向的类的内部实现数据进行隐藏。
阅读更多2024-11-15
【flutter】flutter2升级到3.
以这个 https://github.com/aa286211636/Flutter_QQ 为例子，升级下看看。只有登录界面能正常显示，别的页面都是报错。flutter这版本变动，基本不能直接ru
阅读更多2024-11-15
【JAVA毕业设计】基于Vue和SpringBoot的宠物咖啡馆平台
基于Vue.js和SpringBoot的宠物咖啡馆平台是一个综合性的在线服务系统，旨在为宠物爱好者提供一个便捷的宠物护理和社交场所。该平台分为管理后台和用户网页端，以满足不同用户群体的需求。管理后台主
阅读更多2024-11-15
认证鉴权框架SpringSecurity-2--重点组件和过滤器链篇
这4个接口中，每一个都是当认证或者授权过程中发生结果后触发，可以是失败的场景也可以是成功后触发。1个成功后执行，3个为失败后促发执行。
阅读更多2024-11-15