python—爬虫爬取电影页面实例

🕗 发布于 2024-07-21 14:51 python 爬虫 开发语言

下面是一个简单的爬虫实例，使用Python的requests库来发送HTTP请求，并使用lxml库来解析HTML页面内容。这个爬虫的目标是抓取一个电影网站，并提取每部电影的主义部分。
首先，确保你已经安装了requests和lxml库。如果没有安装，可以通过pip安装它们：

pip install lxml

安装好lxml库后，就可以在Python代码中通过from lxml import etree来导入etree模块，并使用它提供的各种功能。
然后，我们可以编写如下的爬虫脚本：

import re

import fake_useragent
import requests
from lxml import etree

if __name__ == '__main__':
    # UA伪装
    head = {
        "User-Agent": fake_useragent.UserAgent().random
    }
    fp = open("./douban", "w", encoding="utf8")
    # 1.url
    for i in range(0,250,25):
        url = "https://movie.douban.com/top250?start={i}&filter="
        # 2.发送请求
        response = requests.get(url, headers=head)
        # 3.获取想要的数据
        res_text = response.text
        # 4.数据解析
        tree = etree.HTML(res_text)
        # 定位所有的li标签
        li_list = tree.xpath("//ol[@class='grid_view']/li")
        for li in li_list:
            film_name = "".join(li.xpath(".//span[@class='title'][1]/text()"))
            director_actor_y_country_type = "".join(li.xpath(".//div[@class='bd']/p[1]/text()"))
            score = "".join(li.xpath(".//span[@class='rating_num']/text()"))
            quote = "".join(li.xpath(".//span[@class='inq']/text()"))
            new_str = director_actor_y_country_type.strip()
            y = re.match(r"([\s\S]+?)(\d+)(.*?)", new_str).group(2)
            country = new_str.rsplit("/")[-2].strip()
            types = new_str.rsplit("/")[-1].strip()
            director = re.match(r"导演: ([a-zA-Z\u4e00-\u9fa5·]+)(.*?)", new_str).group(1)
            try:
                actor = re.match(r"(.*?)主演: ([a-zA-Z\u4e00-\u9fa5·]+)(.*?)", new_str).group(2)
            except Exception as e:
                actor = "no"
            fp.write(film_name + "#" + y + "#" + country + "#" + types + "#" + director + "#" + actor + "#" + score + "#" + quote + "\n")
            print(film_name, score, quote, y, country, types, director)
    fp.close()

这段代码是一个Python脚本，用于从豆瓣电影Top 250页面抓取电影信息，并将这些信息保存到本地文件中。下面是对代码的详细解释：

1.导入必要的库：

re: 用于正则表达式匹配。
fake_useragent: 用于生成随机的User-Agent，以模拟不同的浏览器访问，避免被网站识别为爬虫。
requests: 用于发送HTTP请求。
lxml.etree: 用于解析HTML文档，提取所需信息。

2.设置User-Agent：

使用fake_useragent.UserAgent().random生成一个随机的User-Agent，并存储在head字典中，作为HTTP请求头的一部分。

3.打开文件：

使用open(“./douban”, “w”, encoding=“utf8”)以写入模式打开（或创建）一个名为douban的文件，用于存储抓取的电影信息。

4.循环请求豆瓣电影Top 250页面：

通过循环，每次请求豆瓣电影Top 250页面的一个子集，start参数从0开始，每次增加25，直到250（但不包括250，因为range的结束值是开区间）。

5.发送HTTP请求：

使用requests.get(url, headers=head)发送GET请求，请求头中包含之前设置的User-Agent。

6.解析HTML文档：

使用etree.HTML(res_text)将响应的文本内容解析为HTML文档。
通过XPath表达式//ol[@class=‘grid_view’]/li定位所有包含电影信息的li标签。

7.提取电影信息：

遍历每个li标签，提取电影名称、导演/演员/年份/国家/类型、评分、简介等信息。
使用正则表达式处理director_actor_y_country_type字符串，以提取年份、国家和类型。
注意，这里对演员信息的提取使用了异常处理，如果正则表达式匹配失败（例如，某些电影信息中可能没有演员信息），则将演员设置为"no"。

8.写入文件：

将提取的电影信息拼接成字符串，并写入之前打开的文件中，每条信息占一行。

9.关闭文件：

循环结束后，关闭文件。
在这里插入图片描述
这里我们截取了部分输出结果的信息，可以看到已经成功爬取电影网站中的部分信息，这个简单的爬虫示例展示了如何发送HTTP请求、解析HTML内容以及提取所需信息的基本流程。

原文地址：https://blog.csdn.net/2301_77698138/article/details/140575685

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：springboot+vue+mybatis校园热点新闻系统+PPT+论文+讲解+售后
下一篇：SELinux的 getenforce setenforce 配置文件/etc/selinux/config的 SELINUX和SELINUXTYPE

如何构建安全可靠的 HarmonyOS 应用
本文将深入探讨 HarmonyOS App 的安全编码规范与最佳实践，帮助开发者在代码编写中避免常见的安全漏洞，如 SQL 注入、XSS攻击等。我们将提供具体的编码示例，并结合ArkUI和ArkTS实
阅读更多2024-11-16
js像循环数组那样循环一个数字，Array.from()
js像循环数组那样循环一个数字，Array.from()
阅读更多2024-11-16
【C++笔记】vector使用详解及模拟实现
vector的文档使用STL的三个境界：能用、明理、能扩展，下面学习vector，我们也按照这个境界去学习。vector是可以改变大小的数组序列容器，也就是数据结构的顺序表。构造函数声明接口说明vec
阅读更多2024-11-16
Java线程池：ThreadPoolExecutor原理解析
本文介绍了线程池的基本概念、主要参数、工作流程，以及 execute() 方法的源码分析，此外，还讨论了在实际应用中可能遇到的陷阱和问题。
阅读更多2024-11-16
1.两数之和-力扣（LeetCode）
1.两数之和-力扣（LeetCode）
阅读更多2024-11-16
Xss挑战（跨脚本攻击）
这里将script，on，src，data，href，进行了过滤，并且在尝试的时候关键字双写不能用了，那么这里直接选择不去闭合标签，直接使用伪协议，但是发现javascript也被拆开了，这里可以对伪
阅读更多2024-11-16
《Python 网络爬虫》
本文介绍了 Python 网络爬虫的基本概念、技术原理、常用工具以及实战案例，希望能够帮助读者快速掌握 Python 网络爬虫技术。在实际应用中，需要根据具体的需求选择合适的工具和方法，并注意遵守法律
阅读更多2024-11-16
UEFI学习（五）——启动框架
https://www.zhihu.com/question/36313402/answer/2398532123UEFI（统一可扩展固件接口）在启动过程主要有以下几个阶段：
阅读更多2024-11-16
【洛谷】T539820 202411A Giants
C++ LGR-207-Div.4】洛谷入门赛 #29 第一题
阅读更多2024-11-16
Python 正则表达式进阶用法：量词与范围
匹配前面的字符零次或多次，相当于“任意多次”。：匹配前面的字符一次或多次，相当于“至少一次”。?：匹配前面的字符零次或一次，相当于“可有可无”。{n}：匹配前面的字符n次。{n,}：匹配前面的字符至少
阅读更多2024-11-16