python爬虫实战：抓取豆瓣电影 Top250数据

🕗 发布于 2024-10-16 18:13 爬虫

1.1 分析网页结构

首先，打开豆瓣电影 Top250 页面，并通过浏览器的开发者工具（F12）观察网页的结构。每部电影的标题和评分位于特定的 HTML 标签内，可以通过这些标签来提取数据。

1.2 编写爬虫

import requests
from bs4 import BeautifulSoup

def get_movies(url):
    headers = {'User-Agent': 'Mozilla/5.0'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'lxml')
    
    movies = []
    
    for item in soup.find_all('div', class_='item'):
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        movies.append({'title': title, 'rating': rating})
    
    return movies

url = 'https://movie.douban.com/top250'
movies = get_movies(url)

# 输出爬取的电影信息
for movie in movies:
    print(movie)

1.3 结果展示

通过该爬虫可以成功抓取豆瓣电影 Top250 页面的电影标题和评分信息。

该段代码只能抓取一页的数据，如果你想抓取整个 Top250 列表，就需要处理分页问题。豆瓣 Top250 分为 10 页，每页显示 25 部电影，所以你需要遍历多个页面，逐页抓取数据。

如何处理分页

通过分析 URL 发现，豆瓣的分页信息通过 URL 的 start 参数控制。例如：

第一页的 URL 是：https://movie.douban.com/top250?start=0
第二页的 URL 是：https://movie.douban.com/top250?start=25
第三页的 URL 是：https://movie.douban.com/top250?start=50

每次递增 25 就可以访问到下一页。因此，可以通过一个循环来构建不同的 URL，并抓取多页的数据。

详细文件已上传至资源文件中，可自行下载【免费】爬取豆瓣电影top250数据资源-CSDN文库

原文地址：https://blog.csdn.net/JH_joker/article/details/142948503

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【C#生态园】从数据导入到Excel操作：探究C#开发利器
下一篇：OGG错误：ORA-28000：the account is locked

Vue是一套构建用户界面的渐进式框架，常用于构建单页面应用
组件（Component）是Vue最强大的功能之一，它扩展了HTML元素，封装了可重用的代码。组件系统使得开发者可以用独立可复用的小组件来构建大型应用，几乎任意类型的应用的界面都可以抽象为一个组件树。
阅读更多2024-10-17
好用的python相关的AI工具Bito介绍
step 1:点插件step 2：搜索bito并安装step3 ：需要登录，要有真实邮箱，按步骤走就行，完后就可以使用。
阅读更多2024-10-17
408算法题leetcode--第36天
408算法题leetcode--第36天
阅读更多2024-10-17
【实战经验】IPv6部署实战：Panabit AX40与锐捷交换机的无缝对接（一）
我们详细探讨了如何将Panabit的AX40和锐捷的NBS5100-24GT4SFP三层交换机进行对接，以实现内网获取IPv6地址的功能。通过一系列的配置步骤和注意事项，我们确保了网络的平滑过渡和高效
阅读更多2024-10-17
【redis】数据过期清除策略、缓存淘汰策略
Redis 所有的数据结构都可以设置过期时间，时间一到，就会自动删除。可以想象里面有一个专门删除过期数据的线程，数据已过期就立马删除。这个时候可以思考一下，会不会因为同一时间太多的 key 过期，以至
阅读更多2024-10-17
【建议收藏】如何设置你的提词器，一文帮你轻松拿捏提词悬浮窗的大小、速度、颜色设置
好的攻略，还需要好的提词器搭配，提词宝就是一块好的提词器！一站式适配你的各种提词场景！通过设置合适的距离、字体大小、滚动速度、单位速度、字体颜色等，可以有效改善提词器使用体验，在不同场景下表现更专业、
阅读更多2024-10-17
unity 音频和文字转换工具分享
在C#中实现离线语音转文字（Speech to Text），可以使用一些本地库，如Microsoft的`System.Speech`，或集成其他第三方的本地库，如Vosk或CMU Sphinx。- 下
阅读更多2024-10-17
AirServer免费终身版本Win5.6.3+Mac7.2.7
别再等待啦！赶紧入手这款AirServer手机投屏软件，让你的生活更加便捷和有趣吧！❤️无论是娱乐、工作还是学习，它都能成为你得力的助手。快来体验一下“无线”的自由吧！
阅读更多2024-10-17
python从0快速上手（二）IDE选择
在这个代码横飞的世界里，选择一个合适的Python IDE就好比是选择一把顺手的武器。今天，就让我来带你一探究竟，看看市面上有哪些让人眼花缭乱的Python IDE，并一较高下。
阅读更多2024-10-17
禅道8.2 - 9.2.1前台Getshell-poc
直接通过fuzz的方式遍历默认路径，写入文件，当然了，要是存在phpinfo界面的话，获取到服务路径，直接写入即可。发送该报错poc时候，通过报错获取服务路径，然后在对应目录下写入文件，如果遇到无回显
阅读更多2024-10-17

python爬虫实战：抓取豆瓣电影 Top250数据

1.1 分析网页结构

1.2 编写爬虫

1.3 结果展示

如何处理分页

相关文章