python—爬虫爬取图片网页实例

🕗 发布于 2024-07-23 01:22 python 爬虫 开发语言

Python爬取图片是一个常见的网络爬虫应用场景。这里，我将提供一个简单的示例，这段代码是一个Python脚本，用于从网站抓取图片并保存到本地文件夹中。它使用了几个Python库来完成任务，包括os.path（尽管在代码片段中直接导入的是os模块，但用于检查文件夹是否存在和创建文件夹），fake_useragent（用于生成随机的用户代理字符串以模拟不同的浏览器请求），requests（用于发送HTTP请求），以及lxml的etree（用于解析HTML内容）。
以下为爬虫爬取某网页的相关代码与详解。

1.导入必要的库：

import os：实际上，代码中使用了os模块而不是os.path，但通常os.path被用于路径操作。这里，os模块用于检查文件夹是否存在和创建文件夹。
import fake_useragent：是一个 Python 包，它用于生成随机的用户代理（User-Agent）字符串。用户代理字符串是一种在HTTP请求中发送给服务器，以标识发起请求的客户端（如浏览器）的类型、版本、操作系统等信息的字符串。
import requests：用于发送HTTP请求。这是Python中非常流行的HTTP客户端库，简单易用。
from lxml import etree：用于解析HTML和XML文档。它提供了强大的XPath和XSLT功能，使得从HTML文档中提取信息变得容易。
（注意：如有相关库未安装，可通过pip install操作来进行安装，例如安装requests库，我们可以pip install requests，直接进行安装就可以了。）

import os.path

import fake_useragent
import requests
from lxml import etree

2.设置请求头：

通过 fake_useragent.UserAgent().random 生成一个随机的用户代理字符串，并将其设置为请求头的 User-Agent。这有助于伪装爬虫的身份，减少被网站封禁的风险。

# UA伪装
head = {
    "User-Agent": fake_useragent.UserAgent().random
}

3.定义全局变量：

pic_name = 0：用于生成图片文件的名称。这里我们从0开始生成，每添加一张照片名称往上加1.

pic_name = 0

4.定义request_pic函数：

这个函数接受一个URL作为参数，用于抓取该URL指向的页面上的图片。
使用requests.get发送请求，并将响应内容赋值给res_text。
使用etree.HTML解析HTML内容，并存储在tree变量中。
通过XPath表达式查找页面上的图片链接（假设它们位于

下的

中的
元素内）。
遍历找到的
元素，提取每个图片链接，并发送另一个请求来获取图片内容。
将图片内容写入到本地文件中，文件名由pic_name变量生成，并递增pic_name以生成不同的文件名。

def request_pic(url):
    # 2.发送请求
    response = requests.get(url, headers=head)
    # 3.获取需要的数据
    res_text = response.text
    # 4.数据解析
    tree = etree.HTML(res_text)
    # print(res_text)
    li_list = tree.xpath("//div[@class='slist']/ul/li")
    print(li_list)

    for li in li_list:
        # 1.url
        img_url = "https://pic.netbian.com"+"".join(li.xpath(".//a/img/@src"))
        print(img_url)
        # 2.发送请求
        img_response = requests.get(img_url, headers=head)
        # 3.获取需要的数据
        img_content = img_response.content
        global pic_name
        with open(f"pictures/{pic_name}.jpg", "wb") as fp:
            fp.write(img_content)
        pic_name += 1

5.主程序：

检查是否存在名为pictures的文件夹，如果不存在则创建它。
定义一个起始URL，并循环遍历多个分页URL（从index_2.html到index_9.html）。对每个分页URL调用request_pic函数来抓取图片。

if __name__ == '__main__':
    if not os.path.exists("pictures"):
        os.mkdir("pictures")
    # 1.url
    url = f"https://pic.netbian.com/4kdongman/"
    # request_pic(url)
    for i in range(2,10):
        next_url = f"https://pic.netbian.com/4kdongman/index_{i}.html"
        request_pic(next_url)

    pass

原文地址：https://blog.csdn.net/2301_77698138/article/details/140618658

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：每类数据保留前n条（sql）
下一篇：Vue项目实现单点登录(SSO)的逻辑和基本流程

网络安全在线网站/靶场：全面探索与实践
CyberPatriot 是由美国空军协会（AFA）赞助的一项全国性网络安全教育计划，主要面向中小学生。该平台通过模拟真实的网络环境，帮助学生们学习如何检测和防御网络攻击。
阅读更多2024-11-17
Javascript垃圾回收机制-运行机制（大厂内部培训版本）
分代式机制把一些新、小、存活时间短的对象作为新生代，采用一小块内存频率较高的快速清理，而一些大、老、存活时间长的对象作为老生代，使其很少接受检查，新老生代的回收机制及频率是不同的，可以说此机制的出现很
阅读更多2024-11-17
算法练习：438. 找到字符串中所有字母异位词
找到字符串中所有字母异位词详解
阅读更多2024-11-17
ubuntu固定ip
ifconfig。
阅读更多2024-11-17
【每日 C/C++ 问题】
适用于两个相关的类型之间的自动转换，类型不相关时编译器会识别出来并报错。
阅读更多2024-11-17
sb.append(a + b)；与sb.append(a).append(b)；详解
sb.append(a + b);与sb.append(a).append(b); 详解
阅读更多2024-11-17
Java学习教程，从入门到精通，Java中super关键字的语法知识点及案例（31）
super是Java中的一个关键字，主要用于引用当前对象的父类或超类。通过super，可以在子类中访问父类的成员变量、方法和构造函数。
阅读更多2024-11-17
6. Keepalived配置Nginx自动重启，实现7x24提供服务
Keepalived配置Nginx自动重启，实现7x24提供服务实现步骤
阅读更多2024-11-17
unity3d————场景异步加载
本文介绍了Unity中场景切换的两种方法：同步切换和异步切换。同步切换在切换场景时会删除当前场景的所有对象并加载下一个场景的信息，可能导致卡顿。因此，异步切换被引入来解决这个问题。异步切换有两种实现方
阅读更多2024-11-17
Android Studio 控制台输出的中文显示乱码
安卓在调试阶段，需要查看app运行时的输出信息、出错提示信息。乱码，会极大的阻碍开发者前进的信心，不能及时的根据提示信息定位问题，因此我们需要查看没有乱码的打印信息。代码运行报错的时候，Build O
阅读更多2024-11-17