Python爬虫入门

🕗 发布于 2025-01-19 00:21 python 爬虫 开发语言

豆瓣榜单250爬取：

直接上代码：

import requests
import re


def top250_crawer(url, sum):
    headers = {
        'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
    }
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 若请求不成功，抛出异常
    except requests.RequestException as e:
        print(f"请求出现问题: {e}")
        return
    title = re.findall('<span class="title">(.*?)</span>', response.text, re.S)
    new_title = []
    for t in title:
        if '&nbsp;/&nbsp' not in t:
            new_title.append(t)
    data = re.findall('<br>(.*?)</p>', response.text, re.S)
    time = []
    country = []
    for str1 in data:
        str1 = str1.replace(' ', '')
        str1 = str1.replace('\n', '')
        time_data = str1.split('&nbsp;/&nbsp;')[0]
        country_data = str1.split('&nbsp;/&nbsp;')[1]
        time.append(time_data)
        country.append(country_data)
    for j in range(len(country)):
        sum += 1
        print(str(sum) + '.' + new_title[j] + ',' + country[j] + ',' + time[j])


url = 'https://movie.douban.com/top250'
sum = 0
'遍历10页数据，250条结果'
for a in range(10):
    if sum == 0:
        top250_crawer(url, sum)
        sum += 25
    else:
        page = '?start=' + str(sum) + '&filter='
        new_url = url + page
        top250_crawer(new_url, sum)
        sum += 25

原文地址：https://blog.csdn.net/yzx991013/article/details/145212727

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：《重生到现代之从零开始的C++生活》—— 入门基础语法2
下一篇：2025年1月17日（点亮一个 LED）

【大数据】机器学习----------降维与度量学习
降维旨在将高维数据映射到低维空间，同时尽可能保留重要信息，而度量学习旨在学习数据之间的距离度量，以改善学习算法的性能。
阅读更多2025-01-21
【Python】综合案例--人生重开模拟器
会生成一个介于 0（包含）和 1（不包含）之间的随机浮点数。每次调用该函数都会得到一个不同的随机数。再扔一次色子, 生成 [1, 3] 的随机数, 用来表示每一种细分情况.我们约定每个属性的范围为 [
阅读更多2025-01-21
欧拉(Euler 22.03)安装安装MySQL5.7.44
【代码】欧拉(Euler22.03)安装安装MySQL5.7.44。
阅读更多2025-01-21
第二十四课 Vue中子组件调用父组件数据
props类似于为子组件定义了属性名，用于接受父组件传递进来的值，通过v-bind将定义好的属性并绑定到子组件实例上进行参数绑定。Vue是不建议在不同的组件直接传递值的，我们需要使用props方法来进
阅读更多2025-01-21
vue3 跨级传递数据
常规的我们可以用父传子的方式props，顶层传递给中间层，中间层再传给底层，如果中间有很多层，那不炸杠了吗。所以接下来要用vue3推出的provide和inject函数。底层用inject函数来接收，
阅读更多2025-01-21
CBAM-2018学习笔记
【代码】CBAM-2018学习笔记。
阅读更多2025-01-21
Cursor的composer和chat的区别
Composer 在处理长文本时表现较为稳定，可以对长文进行更改而不会出现内容丢失的情况。而 Chat 在更改长的程序文件时，有时会删除一些内容。例如，在要求 Chat 对一个 .c文件做注解时，它经
阅读更多2025-01-21
Linux(centos)安装 MySQL 8 数据库(图文详细教程)
前几天写了个window系统下安装Mysql的博客，收到很多小伙伴私信需要Linux下安装Mysql的教程，今天这边和大家分享一下，话不多说，看教程。
阅读更多2025-01-21
Java中的类与对象
在Java中，类是对象的蓝图或模板。它定义了对象的属性（变量）和行为（方法）。类包含字段和方法，用于创建和操作对象。通过类，我们可以创建多个对象，每个对象都有其独立的数据和共同的行为。int age;
阅读更多2025-01-21
蓝桥杯单词重排
这个问题考察了我们对字符串排列和组合的理解。通过使用函数，我们可以方便地生成字符串的所有排列。同时，我们需要注意到重复字母的存在，并对排列数进行相应的调整。这个问题的解决方法简单而有效，适用于解决类似
阅读更多2025-01-21

Python爬虫入门

相关文章