爬取豆瓣电影的数据-----爬虫实战案例（爬取文字）

🕗 发布于 2024-12-09 08:53 爬虫

爬取豆瓣电影的数据

首先打开"豆瓣电影TOP250"网页：

右击鼠标，找到检查点击，然后再点击网络
向上拉动，找到名称栏中的第一个，点击打开
可以在标头里看到请求URL和请求方式，复制URL（需要用到）
在标头的最下面有"User-Agent",也复制下来（也可以下载pip install fake-userangent库，用别人写好的UA）

确定我们要爬取的内容

我们爬取每个电影的一些信息

请添加图片描述

获取多页的信息

因为豆瓣电影这个页面每一个页面只能展示25个电影，当点击下一页时我们会发现每一页的网址只有25->50->75这样的变化，其他的没有变化，所以变化可以通过for循环来遍历它，从而达到**获取到多页的电影信息 **

在这里插入图片描述

具体代码如下：

for i in range(0, 250, 25):
        url = f"https://movie.douban.com/top250?start={i}&filter="

完整代码：

# 豆瓣电影
import requests   # 别人写好的ua  pip install fake_useragent
import fake_useragent
from lxml import etree
import re

if __name__ == '__main__':
    # UA伪装
    head = {
        # "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
        # 用 import fake_useragent 库里的UA
        "User-Agent": fake_useragent.UserAgent().random
    }
    
    # 打开一个文件将获取的数据写进去
    fp = open("./doubanFilm.txt", "w", encoding="utf-8")

    # 1、url
    # url = "https://movie.douban.com/top250"
    # url2 = "https://movie.douban.com/top250?start=25&filter="
    # url3 = "https://movie.douban.com/top250?start=50&filter="
    for i in range(0, 250, 25):
        url = f"https://movie.douban.com/top250?start={i}&filter="

        # 发送请求
        response = requests.get(url, headers=head)
        # 获取想要的数据
        res_text = response.text
        # print(res_text)
        # 数据解析
        tree = etree.HTML(res_text)
        # 定位所有的li标签
        li_list = tree.xpath("//ol[@class='grid_view']/li")
        for li in li_list:
            # 获取电影名字
            film_name = "".join(li.xpath(".//span[@class='title'][1]/text()"))
            # 获取导演、主演、年份、国家、电影类型
            director_actor_y_country_type = "".join(li.xpath(".//div[@class='bd']/p[1]/text()"))
            # 获取评分
            score = "".join(li.xpath(".//span[@class='rating_num']/text()"))
            # 获取标签语
            quote = "".join(li.xpath(".//span[@class='inq']/text()"))
            # 将获取到的导演、主演、年份、国家、电影类型放到一个新列表里，并去除空格
            new_str = director_actor_y_country_type.strip()
            # 将导演从新列表中取出  用正则表达式去匹配
            director = re.match(r"导演: ([a-zA-Z\u4e00-\u9fa51]+)(.*?)", new_str).group(1)
            # 取年份
            y = re.match(r"([\s\S]+?)(\d+)(.*?)", new_str).group(2)
            # 取国家
            country = new_str.rsplit("/")[-2].strip()
            # 取电影类型
            types = new_str.rsplit("/")[-1].strip()
            # 因为有些电影没有主演所以将主演用try-except方法做判断，有主演的取出来，没有主演设定为“no”
            try:
                actor = re.match(r"(.*?)主演: ([a-zA-Z\u4e00-\u9fa5·]+)(.*?)", new_str).group(2)
            except Exception as e:
                actor = "no"
            
            # 因为每个数据都用.join的方法转换成了字符串，所以便可以将这些数据相加并用#隔开，便能连在一起，并换行，使得数据更加工整
            fp.write(film_name + "#" + director + "#" + actor + "#" + y + "#"
                + country + "#" + types + "#" + score + "#" + quote + "\n")
            print(film_name, director, actor, y, country, types, score, quote)
    fp.close()

结果

在这里插入图片描述

原文地址：https://blog.csdn.net/lou0720/article/details/144333078

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Unity】【shader】[图形编程] Shader基础1-Shader的学习难度与渲染流程的关系
下一篇：设计模式的艺术读书笔记

Elasticsearch：什么是查询语言？
从最广泛的意义上讲，查询是指从数据库或数据存储库系统请求数据或信息。此请求通常以特定问题或命令的形式提出，用数据库可以理解的查询语言编写。查询可以像从特定表中获取特定数据子集一样简单，也可以像执行复杂
阅读更多2024-12-27
51单片机学习笔记——找不到REG52.H头文件，点亮一个LED
STC可以从官网下载，也可我这的网盘：链接：https://pan.baidu.com/s/1bO85DPN3IFaXGhiKSwyOrA?pwd=7f4h提取码：7f4h打开STC，选择“keil仿
阅读更多2024-12-27
VSCode/Visual Studio Code实现点击方法名跳转到具体方法的
在 Visual Studio Code 中，通过设置和使用一些快捷键，您可以轻松地点击方法名跳转到方法实现。这通常依赖于所安装的语言扩展，并使用 IntelliSense 功能。
阅读更多2024-12-27
使用 Python 操作 Excel 表格
如果你需要处理.xlsx文件，openpyxl会是一个很好的选择。在Python中操作Excel表格，你可以使用几个流行的库，比如openpyxl、pandas和xlrd/xlwt。openpyxl
阅读更多2024-12-27
leetcode 218. 天际线问题
把一个矩形拆成左右两个点，左边向队列中增加一个高度，右边移除一个高度，求每个点上的最大高度，然后去重即可。从数据规模看，O(n^2)的算法就够了，注意边界条件。
阅读更多2024-12-27
Flink的Watermark水位线详解
Flink有如下三种时间语义：在实际应用中，一般会采用事件时间语义。而正如前面所说的，事件时间语义需要等窗口的数据全部到齐了，才能进行窗口计算。那么，什么时候数据就都到齐了呢？这里我们引入水位线的概念
阅读更多2024-12-27
网上球鞋竞拍系统｜Java｜SSM｜VUE｜前后端分离
2⃣️：管理端：首页、个人中心、球鞋分类管理、热门竞拍管理、科比属区管理、用户管理、竞拍信息管理、消息通知管理、用户评价管理、论坛管理、管理员管理。4⃣️：技术栈：Java、Mysql、SSM、Myb
阅读更多2024-12-27
电子应用设计方案73：智能家庭书柜系统设计
本智能家庭书柜系统设计方案融合了先进的技术和人性化的设计理念，为用户打造了一个高效、便捷和舒适的书籍管理和阅读空间。在实际开发过程中，可根据市场反馈和用户需求不断优化和改进，提升产品的竞争力和用户满意
阅读更多2024-12-27
C语言----词法符号
位运算符的位指的是二进制里的每一位，指的是 0 和 1 ，没有真假，因为它不是一个逻辑上的判断真假，而是让你去计算 0 和 1 通过这些位运算符算出来的结果到底是什么样的，按位进行操作了。其他(其他功
阅读更多2024-12-27
Linux 下处理 ^M 字符的最佳实践
这篇文章按照实用性和重要性重新组织了内容，希望能帮助你更好地处理 ^M 字符问题。如有疑问，欢迎讨论！
阅读更多2024-12-27

爬取豆瓣电影的数据-----爬虫实战案例（爬取文字）

爬取豆瓣电影的数据

确定我们要爬取的内容

获取多页的信息

结果

相关文章