【进阶系列】python简单爬虫实例

🕗 发布于 2024-11-20 03:24 python 开发语言 爬虫

python有一个很强大的功能就是爬取网页的信息，这里是CNBlogs 网站，我们将以此网站为实例，爬取指定个页面的大标题内容。代码如下：

首先是导入库：

# 导入所需的库
import requests  # 用于发送HTTP请求
from bs4 import BeautifulSoup  # 用于解析HTML文档

这一部分是爬取1-50页的列表推导式：


# 生成一个包含要爬取页面URL的列表
# 这里使用了列表推导式，生成了从第1页到第50页的URL（注意：实际可能是分页的URL结构不同，需要调整）
urls = [f'https://www.cnblogs.com/#p{i}' for i in range(1, 51)]

函数部分：分别是爬取页面和爬取页面内容的函数


# 定义爬取页面的函数
def craw(url):
    # 使用requests.get()方法发送GET请求
    response = requests.get(url)
    # 检查HTTP响应状态码是否为200（成功）
    if response.status_code == 200:
        # 如果请求成功，返回页面内容（文本形式）
        return response.text
    else:
        # 如果请求失败，打印错误信息并返回None
        print(f"Failed to retrieve {url}")
        return None

# 定义解析页面内容的函数
def parse(html):
    # 使用BeautifulSoup解析HTML内容，指定解析器为'html.parser'
    soup = BeautifulSoup(html, 'html.parser')
    # 查找所有具有'post-item-title'类的<a>标签（这里假设这是文章标题的链接）
    # 注意：这里的类名可能需要根据实际页面结构调整
    links = soup.find_all('a', class_='post-item-title')
    # 使用列表推导式提取每个链接的href属性和文本内容（去除多余空白）
    return [(link['href'], link.get_text(strip=True)) for link in links]

主函数部分：



# 主程序入口
if __name__ == '__main__':
    # 这里应该遍历urls列表中的每个URL，但为了示例，这里只取了第一个URL（即urls）
    # 实际上，您可能想要使用一个循环来处理所有URL
    # 注意：下面的代码示例中有个错误，应该使用urls（或其他索引）而不是urls本身
    # 正确的做法是：for url in urls: ...
    html_content = craw(urls)  # 修改为遍历或选择特定URL
    # 检查html_content是否为None（即请求是否成功）
    if html_content:
        # 如果请求成功，解析页面内容并打印结果
        for result in parse(html_content):
            print(result)  # 打印每个文章的链接和标题

结果如下：（爬取第二页数据）

未完待续（持续更新中🏆）

原文地址：https://blog.csdn.net/bananapai/article/details/143866503

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：element ui 走马灯一页展示多个数据实现
下一篇：正则表达式

Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
Windows电脑本地部署llamafile并接入Qwen大语言模型远程AI对话实战
阅读更多2024-11-23
解决vm虚拟机中ctrl键粘滞问题（一直处于按下状态）
虚拟机中点击鼠标左键没有问题，单独按下键盘也没有问题，但是如果按下键盘的同时在按下鼠标左键就会卡住。而且100%稳定复现。发现问题原因：vm版本的问题，我的版本是17.5.0，升级成17.5.2 bu
阅读更多2024-11-23
第十章 JavaScript的应用
10.1.1 JavaScript简介1 简单性JavaScript 设计之初就考虑到了非专业程序员的使用，因此它的语法相对简单，容易上手。2 动态性JavaScript 是一种解释型语言，代码可以在
阅读更多2024-11-23
非root用户安装CUDA
4.下载完成后执行.run文件，需要添加两个参数，一个是--override，用于跳过某些检查或限制；另一个是--toolkitpath，它表示安装路径，必须是自己目录下面的路径，如果是根目录就会安装
阅读更多2024-11-23
Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
【代码】## Python操作neo4j库py2neo使用之py2neo 删除及事务相关操作（三）
阅读更多2024-11-23
【通俗理解】Jensen不等式与变分分布q(z)在积分计算中的应用
Jensen不等式 #变分分布 #积分计算 #期望 #凸函数 #优化问题 #下界估计 #机器学习。
阅读更多2024-11-23
「Mac玩转仓颉内测版27」基础篇7 - 字符串类型详解
本篇将介绍 Cangjie 中的字符串类型，包括字符串的定义、字面量形式、插值表达、常用操作及应用场景，帮助开发者熟练掌握字符串的使用。
阅读更多2024-11-23
数据科学与SQL：组距分组分析 | 区间分布问题
绝对值分布分析也可以理解为组距分组分析。对于某个指标而言，一个记录对应的指标值的绝对值，肯定落在所有指标值的绝对值的最小值和最大值构成的区间内，根据一定的算法，在把这个区间划分为等距离的几个小区间，，
阅读更多2024-11-23
c++编译报C1004错误的原因及解决办法
可能是你的代码文件最后没有正确的结束符，或者是缺少了一些必要的头文件或语句。默认磁盘驱动器没有足够的空间用于临时文件，需要大约两倍于源文件的空间。编译器到达了源文件尾但未解析构造。计算结果为假的 #i
阅读更多2024-11-23
mysql 去重补全取出重复变量函数和存储过程
mysql 去重补全取出重复变量函数和存储过程
阅读更多2024-11-23

【进阶系列】python简单爬虫实例

python有一个很强大的功能就是爬取网页的信息，这里是CNBlogs 网站，我们将以此网站为实例，爬取指定个页面的大标题内容。代码如下：

首先是导入库：

这一部分是爬取1-50页的列表推导式：

函数部分：分别是爬取页面和爬取页面内容的函数

主函数部分：

结果如下：（爬取第二页数据）

未完待续（持续更新中🏆）

相关文章