自学内容网 自学内容网

Python爬虫 | 爬取豆瓣电影Top250的数据

简单记录一下,实现爬取豆瓣电影Top 250的数据。
这里我使用requests库来发送HTTP请求,以及BeautifulSoup库来解析HTML页面。

1.安装requestsBeautifulSoup库。

如果没有安装,可以通过以下命令安装:

pip install requests beautifulsoup4

2.具体实现代码

import requests
from bs4 import BeautifulSoup

# 豆瓣电影Top 250的URL
base_url = "https://movie.douban.com/top250"

# 存储电影信息的列表
movies = []

# 豆瓣电影Top 250有10页,每页25部电影
for i in range(10):
    # 构造每一页的URL
    url = f"{base_url}{i * 25}"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到所有电影的容器
    items = soup.find_all('div', class_='item')
    
    for item in items:
        # 电影名
        title = item.find('span', class_='title').get_text()
        # 评分
        rating_num = item.find('span', class_='rating_num').get_text()
        # 评价人数
        rating_people = item.find('div', class_='star').find_all('span')[-1].get_text().strip('人评价')
        
        # 将电影信息存储为字典
        movie = {
            'title': title,
            'rating_num': rating_num,
            'rating_people': rating_people
        }
        movies.append(movie)

# 打印电影信息
for movie in movies:
    print(f"电影名: {movie['title']}, 评分: {movie['rating_num']}, 评价人数: {movie['rating_people']}")

3.注意事项

请遵守豆瓣的使用条款和条件,不要过度请求豆瓣的服务器,以免给豆瓣造成不必要的负担。


原文地址:https://blog.csdn.net/weixin_39347873/article/details/143616078

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!