【Python体验】第五天：目录搜索、数据爬虫（评论区里写作业）

🕗 发布于 2024-08-01 21:36 python 学习爬虫

文章目录

目录搜索 os、shutil库
数据爬虫 request、re
作业：爬取案例的top250电影的关键信息（名称、类型、日期），并保存在表格中

目录搜索 os、shutil库

os 模块提供了非常丰富的方法用来处理文件和目录。
os.listdir(path)：返回path指定的文件夹包含的文件或文件夹的名字的列表。
os.path 模块：获取文件的属性信息。
os.path.join(path1[, path2[, …]])：把目录和文件名合成一个路径
os.path.isdir(path) ：判断路径是否为目录
os.path.isfile(path)：判断路径是否为文件
shutil.move(file,target)：移动文件

# 深度优先搜索文件 （目录搜索）

import os # 导入os模块
import shutil # 实现移动文件的功能需要

# path代表待搜索的目录路径，result存储搜索到的文件路径列表
def dfs(path, result):
    child_files = os.listdir(path)
    for child in child_files:
        # 使用join拼接子目录或文件的路径
        child = os.path.join(path, child)
        # 将child保存到result
        result.append(child)
        if os.path.isdir(child):
            dfs(child, result)

files = []
dfs('.', files)

# 遍历files
for file in files:
    print("find %s" %file) #打印搜索到的路径
    if(os.path.isfile(file) and file.endswith('.xlsx')):
        # 移动当前目录下的excel文件到excel目录下
        shutil.move(file, '.\excel')

移动前：
在这里插入图片描述
移动后：

数据爬虫 request、re

网页数据爬虫实现了互联网网页自动化下载与自动化解析。通过爬虫，可以下载和分析网页。

# 网络爬虫

# spider.py：网页下载、链接提取、数据存储
# 查看豆瓣网top250(25页，每页25条)的电影简介地址，换行存入到txt中

import requests
import re

url = "https://movie.douban.com/top250?start="
pageSize = 25
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
# 正则匹配
briefUrl = "https://movie.douban.com/subject/[0-9]+/"
txt = open("douban.txt", "a", encoding="utf-8")

# 爬取10页
for page in range(0, 10):
    resp = requests.get(url + str(page * pageSize), headers=headers)
    resp.encoding = "utf-8"
    # print(resp.text)

    # 通过findall从网页中提取符合briefUrl正则规则的网址
    links = re.findall(briefUrl, resp.text)
    # 去重
    arr = set(links)
    # print(links)
    for l in arr:
        # print(l)
        txt.write(l + "\n")
txt.close()

在这里插入图片描述

作业：爬取案例的top250电影的关键信息（名称、类型、日期），并保存在表格中

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_46318413/article/details/140718288

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ubuntu22.04安装redis并设置开机自启
下一篇：准备笔试第20天，牛客.mari和shiny牛客.对称之美牛客.最小公倍数牛客.非对称之美

keep-alive - 2024最新版前端秋招面试短期突击面试题【100道】
是 Vue.js 中非常有用的一个组件，特别适用于需要频繁切换的组件场景。通过缓存组件状态，它帮助开发者在提升性能的同时，保持良好的用户体验。在面试中能够清晰地解释keep-alive的使用场景和实现
阅读更多2024-11-07
SpringBoot框架学习总结及整合 JDBC Mybatis-plus JPA Redis 我的学习笔记
SpringBoot是由Pivotal团队提供的开源框架，它并不是对Spring功能上的增强，而是提供了一种快速使用Spring的方式。通过提供默认配置和丰富的组件封装，SpringBoot简化了配置
阅读更多2024-11-07
java list使用基本操作
【代码】java list使用基本操作。
阅读更多2024-11-07
WAL日志
PG WAL（Write-Ahead Logging）日志是PostgreSQL数据库中的一种重要机制，用于保证数据库的完整性和数据恢复。WAL日志是PostgreSQL的持久性技术，它将所有对数据库
阅读更多2024-11-07
Linux（文件目录+磁盘基本概念图片+大白话）
本人基本上是个人理解加参考其他大佬的肯定有很多问题欢迎指正，我会及时修改。
阅读更多2024-11-07
集中管理用户名和密码,定期修改密码快捷方便
新版本中的凭证管理功能允许运维团队将所有用户名和密码统一管理起来，通过建立凭证的方式简化密码的使用和管理。随着系统复杂性的增加和安全性要求的提高，如何有效地管理用户名和密码成为了运维团队面临的一大挑战
阅读更多2024-11-07
GPU架构概述
GPU架构概述
阅读更多2024-11-07
Redis 热key总结
什么是热key？以往热key问题怎么解决？热key进内存后的优势热key探测关键指标
阅读更多2024-11-07
IEEE TRO综述论文：抓取合成领域的深度学习方法
这篇工作将主要介绍了深度学习在六自由度抓取合成上的常见方法、深度学习在抓取过程中的支持方法以及数据集设计方法。近期就职于澳大利亚克莱顿市莫纳什大学的Rhys Newbury在TRANSACTIONS
阅读更多2024-11-07
Python画笔案例-095 绘制鼠标画笔
【代码】Python画笔案例-095 绘制鼠标画笔。
阅读更多2024-11-07

【Python体验】第五天：目录搜索、数据爬虫（评论区里写作业）

文章目录

目录搜索 os、shutil库

数据爬虫 request、re

作业：爬取案例的top250电影的关键信息（名称、类型、日期），并保存在表格中

相关文章