【Python爬虫五十个小案例】爬取豆瓣电影Top250

🕗 发布于 2024-11-26 00:28 python 爬虫 开发语言

请添加图片描述

专栏简介：分享五十个Python爬虫小案例

在这里插入图片描述

🪲前言

在这篇博客中，我们将学习如何使用Python爬取豆瓣电影Top250的数据。我们将使用requests库来发送HTTP请求，BeautifulSoup库来解析HTML页面，并将数据存储到CSV文件中。这个爬虫将自动获取豆瓣电影Top250页面的信息，包括电影名称、导演、主演、评分等详细信息

豆瓣电影Top250是一个包含豆瓣评分最高的250部电影的榜单，是电影爱好者查找电影的一大宝库。本博客将指导大家如何通过编写Python爬虫自动获取豆瓣电影Top250的数据

🪲环境准备

首先，我们需要安装一些Python库来完成本次任务。以下是我们将使用的库：

requests：用来发送HTTP请求并获取网页内容。
BeautifulSoup：用来解析HTML页面，提取我们需要的数据。
csv：将爬取的数据保存到CSV文件中。

因为我们使用的是Python进行爬虫，所以我们使用的命令行是

pip install requests beautifulsoup4 csv

🪲爬虫原理与分析

豆瓣电影Top250的URL是 https://movie.douban.com/top250。页面内容是分页显示的，每一页展示25部电影，最多5页。我们需要访问这些页面并提取电影数据

数据结构分析

每一部电影的信息在HTML结构中都有相应的标签，我们需要从中提取出以下信息：

电影名称
电影评分
电影导演
电影主演
电影年份
电影类型

通过使用BeautifulSoup解析HTML，我们可以轻松提取这些信息

🪲代码具体的实现

发送请求获取网页内容

我们首先使用requests库发送请求来获取网页内容。豆瓣会返回HTML页面，我们将把这些内容传递给BeautifulSoup进行解析

import requests
from bs4 import BeautifulSoup

# 设置请求头，避免被豆瓣屏蔽
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 获取豆瓣电影Top250的前五页数据
base_url = "https://movie.douban.com/top250"
movie_list = []

def get_page(url):
    response = requests.get(url, headers=headers)
    return response.text

解析网页内容

使用BeautifulSoup解析HTML页面，找到每部电影的信息。每部电影的信息包含在div标签中，类名为item

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    movies = soup.find_all('div', class_='item')

    for movie in movies:
        title = movie.find('span', class_='title').text
        rating = movie.find('span', class_='rating_num').text
        director, actors = movie.find('div', class_='bd').find('p').text.strip().split("\n")[:2]
        year = movie.find('div', class_='bd').find('p').text.strip().split("\n")[0]
        movie_type = movie.find('span', class_='genre').text.strip()
        
        movie_info = {
            'title': title,
            'rating': rating,
            'director': director,
            'actors': actors,
            'year': year,
            'type': movie_type
        }
        
        movie_list.append(movie_info)

提取电影数据

我们现在可以循环访问每一页的URL并提取数据。豆瓣电影Top250有5页，URL结构为https://movie.douban.com/top250?start=X，其中X为每页的起始索引（0, 25, 50, …）

接下来我们的其他案例也会采取类似的分析方式，同学们可以

def main():
    for start in range(0, 250, 25):
        url = f"{base_url}?start={start}"
        html = get_page(url)
        parse_page(html)

    # 输出结果
    for movie in movie_list:
        print(movie)

if __name__ == "__main__":
    main()

保存数据到CSV文件或者Excel文件

为了方便后续的数据分析，我们可以将数据保存到CSV文件中

import csv

def save_to_csv():
    keys = movie_list[0].keys()
    with open('douban_top250.csv', 'w', newline='', encoding='utf-8') as output_file:
        dict_writer = csv.DictWriter(output_file, fieldnames=keys)
        dict_writer.writeheader()
        dict_writer.writerows(movie_list)

save_to_csv()

如果是Excel那么可以参考下面的案例代码

import pandas as pd  # 导入pandas库

def save_to_excel():
    df = pd.DataFrame(movie_list)  # 将电影列表转换为DataFrame
    df.to_excel('douban_top250.xlsx', index=False, engine='openpyxl')  # 保存为Excel文件

🪲完整的代码

import csv

import requests
from bs4 import BeautifulSoup
import pandas as pd  # 导入pandas库

# 设置请求头，避免被豆瓣屏蔽
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# 获取豆瓣电影Top250的前五页数据
base_url = "https://movie.douban.com/top250"
movie_list = []


# 发送请求获取网页内容
def get_page(url):
    response = requests.get(url, headers=headers)
    return response.text


# 解析网页内容并提取电影信息
def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    movies = soup.find_all('div', class_='item')

    for movie in movies:
        title = movie.find('span', class_='title').text
        rating = movie.find('span', class_='rating_num').text
        director_actors = movie.find('div', class_='bd').find('p').text.strip().split("\n")[:2]
        director = director_actors[0]
        actors = director_actors[1] if len(director_actors) > 1 else ''

        # 处理电影类型，避免找不到的情况
        genre_tag = movie.find('span', class_='genre')
        movie_type = genre_tag.text.strip() if genre_tag else '未知'

        # 处理电影年份
        year_tag = movie.find('div', class_='bd').find('p').text.strip().split("\n")[0]

        # 构建电影信息字典
        movie_info = {
            'title': title,
            'rating': rating,
            'director': director,
            'actors': actors,
            'year': year_tag,
            'type': movie_type
        }

        # 将电影信息添加到列表中
        movie_list.append(movie_info)


# 爬取豆瓣电影Top250的所有页面
def main():
    # 遍历前5页的豆瓣Top250
    for start in range(0, 250, 25):
        url = f"{base_url}?start={start}"
        html = get_page(url)
        parse_page(html)

    # 输出结果
    for movie in movie_list:
        print(movie)


def save_to_csv():
    keys = movie_list[0].keys()  # 获取电影数据字典的键（即列名）

    # 写入CSV文件
    with open('douban_top250.csv', 'w', newline='', encoding='utf-8-sig') as output_file:
        dict_writer = csv.DictWriter(output_file, fieldnames=keys)
        dict_writer.writeheader()  # 写入列名
        dict_writer.writerows(movie_list)  # 写入电影数据


# 主函数
if __name__ == "__main__":
    main()
    save_to_csv()
    print("爬取完成，数据已保存到 douban_top250.csv")

🪲运行效果

运行上述代码后，你将会得到一个名为douban_top250.csv的文件，文件内容如下所示：

在这里插入图片描述

下图是保存为csv文件的格式，这里注意encoding=‘utf-8-sig’，encoding如果等于utf-8，那么直接双击csv文件会乱码的

在这里插入图片描述

🪲总结

本文主要介绍了如果使用简单的爬虫进行数据的爬取，这里主要进行豆瓣电影Top250的数据爬取，我们使用的库就是requests、bs4、pandas、csv等库，本节主要重在案例的实践，还想了解更多的爬虫案例可以关注我的专栏

Python爬虫五十个小案例：https://blog.csdn.net/null18/category_12840403.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12840403&sharerefer=PC&sharesource=null18&sharefrom=from_link

原文地址：https://blog.csdn.net/null18/article/details/144001693

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【系统架构设计师】真题论文: 论软件可靠性设计技术的应用（包括解题思路和素材）
下一篇：Spring Boot OA：打造现代化企业办公环境

基于Python机器学习的双色球数据分析与预测
数据量：提供的数据量较小，可能影响模型的准确性。通常需要更多的历史数据来训练有效的模型。随机性：双色球的结果具有随机性，预测结果不应被视为实际的开奖结果。通过以上步骤，我们简单地演示了如何使用Pyth
阅读更多2025-01-22
Spring 6 第6章——单元测试：Junit
这两行代码的作用是创建Spring容器，最终获取到对象，但是每次测试都需要重复编写针对上述问题，我们需要的是程序能自动帮我们创建容器，我们都知道JUnit无法知晓我们是否使用了Spring框架，更不用
阅读更多2025-01-22
Vue 引入及简单示例
Vue 渐进式JavaScript 框架学习笔记 - Vue 引入及简单示例
阅读更多2025-01-22
iOS-支付相关
【代码】iOS-支付相关。
阅读更多2025-01-22
Ceisum无人机巡检直播视频投射
实现无人机投射的艰辛历程
阅读更多2025-01-22
高频词汇背诵 Day1
英语学习
阅读更多2025-01-22
Python 进阶 - Excel 基本操作
在现实中，很多工作都需要与数据打交道，Excel 作为常用的数据处理工具，一直备受人们的青睐，而大部分人都是手动操作 Excel，如果数据量较小且是一些简单的操作还好说，但如果数据量较大或是一些复杂的
阅读更多2025-01-22
99.10 金融难点通俗解释：投资资本回报率（ROIC）
记住：- ROIC看经营资金效率- 只算日常经营的钱- 不算固定的设施- 要看经营投入回报简单公式：ROIC = 赚到的钱 ÷ 经营投入的钱。
阅读更多2025-01-22
AG32 FPGA 的 Block RAM 资源：M9K 使用
AG32 FPGA 包含了 4 个 M9K 块，每个 M9K 块的容量为 8192 bits，总计为 4 个 M9K（4K bytes）。这使得 AG32 的内部存储非常适合嵌入式应用，能够有效地利用
阅读更多2025-01-22
Java从零到1的开始-Day13
1.概述:和StringBuffer一样都是一个可变的字符序列(底层自带缓冲区,说白就是没有被final修饰的byte数组),此类提供一个与StringBuffer兼容的API2.作用:主要是为了拼接
阅读更多2025-01-22

【Python爬虫五十个小案例】爬取豆瓣电影Top250

🪲前言

🪲环境准备

🪲爬虫原理与分析

🪲代码具体的实现

发送请求获取网页内容

解析网页内容

提取电影数据

保存数据到CSV文件或者Excel文件

🪲完整的代码

🪲运行效果

🪲总结

相关文章