python爬虫初体验（一）

🕗 发布于 2024-09-22 03:15 python 爬虫

文章目录

1. 什么是爬虫？

爬虫（Web Scraping）是一种从网站自动提取数据的技术。简单来说，它就像是一个自动化的“浏览器”，能够按照设定的规则，访问网页并提取其中的关键信息。对于我们前端开发者来说，爬虫可以帮助我们抓取一些数据进行可视化或前端展示，非常实用。

2. 为什么选择 Python？

Python 作为一种高效、简洁的编程语言，尤其在数据处理和爬虫方面拥有大量强大的第三方库。使用 Python 编写爬虫非常方便，因为有现成的工具让我们不需要从零开始写所有功能，比如 requests 和 BeautifulSoup 等库。

3. 爬虫小案例

3.1 安装python

brew install python

运行完成，使用python --version检验安装是否成功。我这里安装的是python2

3.2 安装依赖

首先，确保你已经安装了 Python 和 pip，然后通过以下命令安装我们需要的库：

pip install requests
pip install beautifulsoup4

requests 是一个非常流行的 Python 第三方库，用于简化 HTTP 请求。它允许你发送 HTTP/1.1 请求极其简单，而无需底层的socket库或urllib库。requests 库使得发起请求、处理响应变得非常容易，并且支持多种类型的HTTP请求（GET, POST, PUT, DELETE等）。
BeautifulSoup4（通常简称 BeautifulSoup）是一个用于解析HTML和XML文档的Python库。它可以帮助开发者从网页中提取所需的数据，常用于Web爬虫项目、数据挖掘以及其他需要解析HTML或XML文档的场景。

3.3 requests请求设置

比如爬我在csdn的主页信息，将访问量，原创，排名，粉丝，铁粉这些数据获取出来。
在这里插入图片描述

设置访问的URL

url = 'https://blog.csdn.net/qq_36012563'

设置请求头
有时候，网站会检测请求是否来自浏览器。我们可以通过在 requests.get 请求中添加请求头来伪装爬虫为浏览器，所以拿取浏览器的请求头来设置。

将user-agent复制出来，设置其requests请求头

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36'}

解析网页

strhtml = requests.get(url, headers=headers) // 发起GET请求，获取网页数据

soup = BeautifulSoup(strhtml.text, 'html.parser') // 创建BeautifulSoup对象

查找元素

# 查找具有特定类名的<div>标签
soup.find_all('div', class_='user-profile-statistics-num')
// or
soup.select('div.user-profile-statistics-num')

将数据导出文件

在写入文本文件时，确保每行数据后面加上换行符\n，以便每行数据独立。

with open('output.txt', 'w') as file:
    for item in info:
        file.write(item.get_text() + '\n')

3.4 完整代码

import requests
from bs4 import BeautifulSoup

url = 'https://blog.csdn.net/qq_36012563'

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36'}
strhtml = requests.get(url, headers=headers)

soup = BeautifulSoup(strhtml.text, 'html.parser')

info = soup.select('div.user-profile-statistics-num')

with open('output.txt', 'w') as file:
    for item in info:
        file.write(item.get_text() + '\n')

python2 index.py运行该文件，获取到网页数据
在这里插入图片描述

4. 总结

Python 爬虫是一个非常强大的工具，能帮助我们自动化地从网页中提取数据。作为前端开发者，掌握一点爬虫技术，不仅能帮助我们快速获取前端展示所需的数据，还能为项目中的 API 数据源提供备选方案。不过，在使用爬虫时，一定要遵守目标网站的使用条款和隐私政策，避免滥用。

原文地址：https://blog.csdn.net/qq_36012563/article/details/142351710

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Tomcat服务器—Windows下载配置详细教程
下一篇：JS获取URL中的某个参数值

Linux便捷查询使用手册第十二章：虚拟化与容器
虚拟化是指在单一硬件平台上运行多个虚拟计算机（虚拟机），每个虚拟机可以运行不同的操作系统和应用程序。虚拟化通过抽象物理硬件资源，使其能够在多个虚拟环境中共享。容器是轻量级的虚拟化技术，通过将应用及其依
阅读更多2024-11-16
Javaweb-day11案例（文件）
文件上传前端页面三要素1.在form表单中，要定义一个表单项，类型为file2.表单的提交方式必须得是POST方式下面是讲义里面的内容补充上传文件的原始form表单，要求表单必须具备以下三点（上传文件
阅读更多2024-11-16
深入理解 Linux top命令：用法详解与使用示例
linux topu命令界面各项介绍和一些组合命令介绍。
阅读更多2024-11-16
二叉树Golang
二叉树，深度优先搜索，广度优先搜索
阅读更多2024-11-16
Linux篇（权限管理命令）
在多用户计算机系统的管理中，权限是指某个特定的用户具有特定的系统资源使用权利在Linux 中分别有读、写、执行权限：权限针对文件权限针对目录读r表示可以查看文件内容；cat表示可以(ls)查看目录中存
阅读更多2024-11-16
【代码随想录day30】【C++复健】452. 用最少数量的箭引爆气球；435. 无重叠区间；763. 划分字母区间
而这也这是我想复杂的地方。
阅读更多2024-11-16
mysql存储过程模拟数据批量生成的函数模板
下面是个模板，需要自己。
阅读更多2024-11-16
使用 PyAnsys 在 Ansys 随机振动分析中检索螺栓连接中的力和应力
随机振动模拟通常用于评估组件承受运输过程中振动的能力。随机振动分析利用先前模态分析的频率和模式内容对通过功率谱密度 (PSD) 负载定义的频谱和功率内容进行线性叠加。在大多数装配模型中，螺栓连接（由求
阅读更多2024-11-16
C语言之MakeFile
定义: 变量名=变量值使用:取值;${变量名}或$(变量名)拼接:变量名+=值注意:1,makefile变量名可以以数字开头2,变量的大小是敏感的3,变量一般都在makefile的头部定义4,变量几乎
阅读更多2024-11-16
动态规划 —— 子数组系列-最大子数组和
53. 最大子数组和 - 力扣（LeetCode）
阅读更多2024-11-16