Python爬虫 | 爬取豆瓣电影Top250的数据

🕗 发布于 2024-11-10 13:17 python 爬虫后端

简单记录一下，实现爬取豆瓣电影Top 250的数据。
这里我使用requests库来发送HTTP请求，以及BeautifulSoup库来解析HTML页面。

1.安装`requests`和`BeautifulSoup`库。

如果没有安装，可以通过以下命令安装：

pip install requests beautifulsoup4

2.具体实现代码

import requests
from bs4 import BeautifulSoup

# 豆瓣电影Top 250的URL
base_url = "https://movie.douban.com/top250"

# 存储电影信息的列表
movies = []

# 豆瓣电影Top 250有10页，每页25部电影
for i in range(10):
    # 构造每一页的URL
    url = f"{base_url}{i * 25}"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到所有电影的容器
    items = soup.find_all('div', class_='item')
    
    for item in items:
        # 电影名
        title = item.find('span', class_='title').get_text()
        # 评分
        rating_num = item.find('span', class_='rating_num').get_text()
        # 评价人数
        rating_people = item.find('div', class_='star').find_all('span')[-1].get_text().strip('人评价')
        
        # 将电影信息存储为字典
        movie = {
            'title': title,
            'rating_num': rating_num,
            'rating_people': rating_people
        }
        movies.append(movie)

# 打印电影信息
for movie in movies:
    print(f"电影名: {movie['title']}, 评分: {movie['rating_num']}, 评价人数: {movie['rating_people']}")

3.注意事项

请遵守豆瓣的使用条款和条件，不要过度请求豆瓣的服务器，以免给豆瓣造成不必要的负担。

原文地址：https://blog.csdn.net/weixin_39347873/article/details/143616078

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【含开题报告+文档+源码】高校校园二手交易平台的设计与实现
下一篇：程序设计方法与实践-分治法

特权帐户安全 CyberArk
它隔离、控制和监控整个数据中心的所有特权活动，补充了CyberArk在市场领先的特权身份管理套件‌。‌CyberArk PTA（Privileged Threat Analytic）‌：特权威胁分析，
阅读更多2024-11-16
消息中间件分类
1. JMS（Java Message Service）：这是 Java 平台上的一套消息服务 API 标准，它定义了消息系统的基本功能，如消息的创建、发送、接收和读取等。5. 其他消息中间件：除了上
阅读更多2024-11-16
企业知识中台：构建智慧企业的核心
知识中台是企业数字化转型的重要一环，它能够帮助企业更有效地管理和利用知识资产，提升企业的竞争力。在选择搭建知识中台的工具时，HelpLook是一个值得考虑的选择。HelpLook以其直观易用的内容管理
阅读更多2024-11-16
如何恢復電腦IP地址的手動設置？
如何恢復電腦IP地址的手動設置。
阅读更多2024-11-16
OSPF动态路由配置(Cisco Packet Tracer)
OSPF路由协议通过向全网扩散本设备的链路状态信息，使网络中每台设备最终同步一个具有全网链路状态的数据库，然后路由器采用OSPF算法，以自己为根，计算到达其他网络的最短路径，最终形成全网路由信息。（4
阅读更多2024-11-16
HarmonyOS ArkTs 解决流式传输编码问题
使用 HarmonyOS ArkTs 解决流式传输中的编码和 JSON 解析问题。
阅读更多2024-11-16
每日论文20-24RFIC四核三模带自动模式跟踪输出缓冲器的VCO
每日论文20-24RFIC四核三模带自动模式跟踪输出缓冲器的VCO
阅读更多2024-11-16
PG数据库数据库时间字段开始时间和结束时间，判断和查询条件的开始和截止时间存在交集，SQL如何编写
假设你的表名是 events，开始时间字段为 start_time，结束时间字段为 end_time，而你要检查的时间段是 query_start_time 和 query_end_time。在 Po
阅读更多2024-11-16
cls(c基础)
作用清屏格式#include
阅读更多2024-11-16
see的本质是什么？
如果你喜欢看【龙虎斗】，看【猫蛇大战】相关的视频，你会发现，蛇的头会跟随性地转动，这不仅是因为蛇很紧张，更重要的，是因为蛇的眼睛的问题，蛇的眼睛对稍远一点的东西，其实是看不太清楚的，而且蛇的眼睛是没有
阅读更多2024-11-16

Python爬虫 | 爬取豆瓣电影Top250的数据

1.安装requests和BeautifulSoup库。

2.具体实现代码

3.注意事项

相关文章

1.安装`requests`和`BeautifulSoup`库。