爬虫下载网页文夹

🕗 发布于 2024-11-07 14:20 爬虫 windows

爬虫下载网页pdf文件
在这里插入图片描述

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from urllib.parse import urljoin, unquote
from tqdm import tqdm
# 设置网页的URL
base_url = "http://119/download/dzz/pdf/"

# 创建保存文件的文件夹，如果文件夹不存在则创建
download_folder = "downloaded_pdfs"
os.makedirs(download_folder, exist_ok=True)

def get_name(base_url):
    name_list=[]
    # 获取网页内容
    response = requests.get(base_url)  # 发送请求获取网页内容
    response.raise_for_status()  # 检查请求是否成功，若不成功则抛出异常
    soup = BeautifulSoup(response.text, "html.parser")  # 解析HTML内容

    # 查找所有文件链接
    for link in soup.find_all("a"):  # 遍历网页中所有的<a>标签，找到每个链接
        name_list.append(link.get("href"))
    return name_list
f1_list=get_name(base_url)
for i1 in f1_list:
    if i1 and i1 not in ["../"]:
        print(i1)
        f1_url = urljoin(base_url, i1)  # 将相对链接转为完整的URL
        f2_list=get_name(f1_url)
        for i2 in f2_list:   
            if i2 and i2 not in ["../"]:
                f2_url = urljoin(f1_url, i2)  # 将相对链接转为完整的URL
                f3_list=get_name(f2_url)
                for i3 in tqdm(f3_list):   
                    if i3 and i3 not in ["../"]:
                        f3_url = urljoin(f2_url, i3)  # 将相对链接转为完整的URL
                        response = requests.get(f3_url)  # 发送请求获取网页内容
                        response.raise_for_status()  # 检查请求是否成功，若不成功则抛出异常
                        

                        file_response = requests.get(f3_url)  # 发送请求下载文件内容

                        download_folder_new = download_folder+'/'+i1+i2
                        download_folder_new=unquote(download_folder_new)
                        os.makedirs(download_folder_new, exist_ok=True)
                        download_folder_path=download_folder_new+i3
                        download_folder_path = unquote(download_folder_path)
                        with open(download_folder_path, "wb") as f:  # 以二进制写入方式保存文件
                            f.write(file_response.content)  # 写入下载的文件内容到本地
                        # print(f"{download_folder_path}下载完成")  # 打印下载完成信息

原文地址：https://blog.csdn.net/qq_43808611/article/details/143508526

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ac8257 android 9 lk upgrade升级后分区表错误问题
下一篇：【Ajax】跨域

vue 版本升级
这个警告是说eslint-plugin-vue package支持 node 12.22或者 14.17 或者 16.0.0以上版本，但是当前你的版本是 12.19.0，版本太低了需要更新 node版
阅读更多2024-11-09
理解虚拟 DOM：Vue 的灵魂之处
虚拟 DOM（Virtual DOM）是一个轻量级的 JavaScript 对象，它是实际 DOM 的一个抽象表示。在 Vue 中，当我们对数据进行修改时，框架不会立即更新真实的 DOM，而是首先对虚
阅读更多2024-11-09
vue3 动态路由+动态组件+缓存应用
vue3 动态路由+动态组件+缓存应用
阅读更多2024-11-09
机器学习—训练细节
然后张量流会试图最小化均方误差，在这个表达式中，用大写的J(W,B)来表示成本函数，成本函数是神经网络中所有参数的函数，所以你可以把W，B看作包括整个神经网络中的所有的W，B参数，所以如果你优化关于w
阅读更多2024-11-09
解释Python中的装饰器的作用
装饰器接收两个参数：一个是要装饰的函数，另一个是可选的额外参数列表。装饰器可以返回一个新的函数，这个新函数是原始函数的增强版，或者保持和原始函数相同的行为。装饰器在Python中是一种特殊类型的函数，
阅读更多2024-11-09
我自己nodejs练手时常用的一些库基础用法
我自己使用node练手时常用的一些库的基本使用记录：有bcrypt,express,pg,config,jwt和pm2
阅读更多2024-11-09
EasyPlayer.js无插件H5播放器支持哪些浏览器？
为了确保用户无论在何种设备或浏览器上都能享受到最佳的观看体验，EasyPlayer.js流媒体播放器应运而生，它以其卓越的跨浏览器兼容性和功能丰富性，成为了视频播放解决方案的佼佼者。这种广泛的兼容性使
阅读更多2024-11-09
Java-I/O框架13：文件夹的递归遍历和递归删除
16.29 递归遍历和递归删除_哔哩哔哩_bilibili。1.文件夹的递归遍历。2.文件夹的递归删除。
阅读更多2024-11-09
github和Visual Studio
使用很简单，自己稍微琢磨下就明白了。
阅读更多2024-11-09
Python毕业设计选题：基于django+vue的网上购物系统的设计与实现
网上购物系统是在实际应用和软件工程的开发原理之上，运用Python语言以及Django框架进行开发。首先要进行需求分析，分析出网上购物系统的主要功能，然后设计了系统结构。整体设计包括系统的功能、系统总
阅读更多2024-11-09

爬虫下载网页文夹

相关文章