Python 爬虫

🕗 发布于 2025-01-15 02:34 python 爬虫 开发语言

爬取豆瓣电影前250

import random
import urllib.request
from bs4 import BeautifulSoup
import csv
from time import sleep
import re  # 导入正则表达式模块


ip = '218.95.39.56:11747'

def main(url, headers, writer):
    global language, director, actor, length
    try:
        # 假设你的IP地址存储在一个名为ips.txt的文件中，每行一个IP
        def load_proxies_from_file(file_path):
            with open(file_path, 'r') as file:
                ips = [line.strip() for line in file.readlines()]
            return ips

        def get_random_proxy(ips):
            return random.choice(ips)

        # 替换为你的IP文件路径
        file_path = 'ips.txt'
        ips = load_proxies_from_file(file_path)
        random_ip = get_random_proxy(ips)
        print(f'Randomly selected proxy: {random_ip}')
        ip = random_ip
        # 设置代理服务器
        proxy = 'https://' + ip

        # 创建一个 opener 对象，添加代理处理程序
        opener = urllib.request.build_opener(
            urllib.request.ProxyHandler({
                'http': proxy,
                'https': proxy,
            })
        )

        # 安装 opener
        urllib.request.install_opener(opener)

        proxy = {
            'http': 'http://' + ip,
            'https': 'http://' + ip
        }
        page = urllib.request.Request(url,headers=headers)
        page = urllib.request.urlopen(page)
        contents = page.read()
        # 用BeautifulSoup解析网页
        soup = BeautifulSoup(contents, "html.parser")

        print('爬取豆瓣电影250: \n')

        for tag in soup.find_all(attrs={"class": "item"}):
            # 爬取序号
            num = tag.find('em').get_text()
            # 电影名称
            name = tag.find_all(attrs={"class": "title"})
            zwname = name[0].get_text()
            # 爬取评分
            rating_num = tag.find(attrs={"class": "rating_num"}).get_text()
            # 爬取评价人数
            rating_people = tag.find_all(attrs={"class": "star"})[0].find_all('span')[-1].get_text().strip('()')
            # 使用正则表达式提取数字
            rating_people_num = re.findall(r'\d+', rating_people)[0]
            # 获取评语
            content = tag.find(attrs={"class": "inq"}).get_text() if tag.find(attrs={"class": "inq"}) else ''
            print('[影评]', content)
            #
            year_text = tag.find(attrs={"class": "bd"}).get_text()
            lines = year_text.split('\n')
            print(lines[3])
            # 导演
            director_x = re.search(r'导演:\s*(.+?)\s*\s', lines[2])
            if director_x:
                director = director_x.group(1)
            # 主演
            actor_x = re.search(r'主演:\s*(.+?)\s*\s', lines[2])
            if actor_x:
                actor = actor_x.group(1)
            # 上映年份
            year = re.search(r'\d{4}', year_text)
            if year:
                year = year.group(0)
            # 制片国家
            country = re.search(r'/\s*([^/]+)\s*/', lines[3])
            if country:
                country = country.group(1)

            # 网页链接
            url_movie = tag.find(attrs={"class": "hd"}).a.attrs['href']
            print(url_movie)
            import requests
            from lxml import etree

            req = requests.get(url_movie, headers=headers, proxies=proxy)
            req.encoding = 'utf-8'
            language = "英语"
            length = "123"
            story = "剧情"
            if req.status_code == 200:
                html = req.text
                language_match = re.search(r'<span class=\"pl\">语言:</span> (.*?)<br/>', html)
                if language_match:
                    language = language_match.group(1)
                    print(f"语言: {language}")
                length_match = re.search(r'<span property=\"v:runtime\" content=\"(\d+)\">', html)
                if length_match:
                    length = length_match.group(1)
                    print(length)
                story_match = re.search(
                    r'<span property=\"v:genre\">剧情</span> / <span property=\"v:genre\">(.*?)<', html)
                if story_match:
                    story = story_match.group(1)
                    print(story)

                html = etree.HTML(html)
                content = html.xpath('//*[@id="link-report-intra"]/span/text()')
                cleaned_content = [text.strip() for text in content if text.strip()]
                print(cleaned_content)
                content = cleaned_content[0]

            # 写入CSV
            writer.writerow({'序号': num, '电影名': zwname, '导演': director, '主演': actor,
                             '类型': story, '制片国家': country, '语言': language,
                             '片长': length, '评分': rating_num, '评论人数': rating_people_num, '上映年份': year, '简介': content})
            print(f"""序号：{num}, 电影名：{zwname}, 导演：{director}, 主演：{actor}, 简介：{content}, 
            类型：{story}, 制片国家：{country}, 语言：{language}, 片长：{length}, 评分：{rating_num}, 
            评论人数：{rating_people_num}, 上映年份：{year}""")

    except Exception as e:
        print(f"发生错误: {e}")


if __name__ == '__main__':
    # 消息头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
    }

    # 打开CSV文件准备写入
    with open('movie1.csv', 'w', newline='', encoding='utf-8') as csvfile:
        fieldnames = ['序号', '电影名', '导演', '主演', '类型', '制片国家', '语言', '片长', '评分', '评论人数', '上映年份', '简介']
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()

        # 翻页
        for i in range(0, 4):
            print(f'页码 {i}')
            num = i * 25  # 每次显示25部 URL序号按25增加
            url = f'https://movie.douban.com/top250?start={num}&filter='
            main(url, headers, writer)
            sleep(5 + random.random())  # 随机等待时间，避免过快请求被封IP

在这里插入图片描述

原文地址：https://blog.csdn.net/qq_52331221/article/details/145109557

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：浅谈云计算07 | 云安全机制
下一篇：一个可以把玩的针对WebSocket分段的处理方案

jvm学习总结
在硬盘上查找并通过io读写字节码文件，使用类时才加载，例如调用来的main方法，new对象等等，在加载阶段会在内存中生成一个代表这个类的java.lang.Class对象，作为方法区这个类的各种数据的
阅读更多2025-01-22
【gopher的java学习笔记】Java中Mapper与Entity的关系详解
在Java后端开发中，特别是在使用MyBatis等持久层框架时，Mapper与Entity的关系是架构设计中不可忽视的一部分。本文将从Java Web应用程序的角度出发，详细探讨Mapper与Enti
阅读更多2025-01-22
【gopher的java学习笔记】Java中Service与Mapper的关系详解
在后端开发中，Java作为一种广泛使用的编程语言，其架构设计和层次划分对于系统的可维护性、可扩展性和性能有着至关重要的影响。特别是在使用MyBatis等持久层框架时，Service层与Mapper层的
阅读更多2025-01-22
基于单片机的直流电机控制系统（论文+源码）
1系统方案设计本设计基于单片机的直流电机控制系统的总体架构设计如图2.1所示，其采用STM32F103单片机作为控制器，结合ESP8266WiFi通信模块、L9110电机驱动电路、OLED液晶、按键等
阅读更多2025-01-22
探索 Vue.js 的高级插槽特性：动态插槽与作用域插槽优化
<thead><tr></th></tr></thead><tbody></td></tr></t
阅读更多2025-01-22
HarmonyOS NEXT：华为分享-碰一碰开发分享
碰一碰”是HarmonyOS NEXT系统中的一项创新功能，它允许用户通过简单的设备接触，实现多种内容的快速分享。这一功能打破了传统文件传输和分享的局限性，无需复杂的网络设置或社交关系，只需将两个设备
阅读更多2025-01-22
第17章安全培训筑牢梦想根基
在确认同事情况有所好转后，我们才回到考场，继续完成考试。王瑞瑞紧握着笔记本，点了点头，她的马尾辫随着动作轻轻摆动，但眼神却异常坚定：“是的，这让我们更加明白，我们的每一个小错误，都可能导致无法挽回的后
阅读更多2025-01-22
C# 中的Stopwatch和timer
Stopwatch：用于测量时间间隔，适合性能分析和精确计时。Timer：用于在指定的时间间隔后执行代码，适合定时任务。根据你的具体需求，可以选择使用Stopwatch来测量时间间隔，或使用Timer
阅读更多2025-01-22
学Python的人…
它主要负责包管理比较臃肿，我也是后面学深度学习才开始用这个的不是必需，初学者可安可不安。提前思考好学习路线：思维导图中的基础部分所有的都要学，但高阶部分选定一个方向学就好。，它的交互性的确更强，但我觉
阅读更多2025-01-22
Comment(爆破+git泄漏+二次注入)
即用户名为admin%27%0Aor%0A%271%27%3E%270%27%0Aor%0Aname%0Alike%0A%27admin。使用bugscanteam的githack工具，下载泄漏的源码
阅读更多2025-01-22

Python 爬虫

爬取豆瓣电影前250

相关文章