Web爬虫

🕗 发布于 2024-04-13 00:01 前端爬虫 python3.11

📑前言

本文主要是【Web爬虫】——简单使用的文章，如果有什么需要改进的地方还请大佬指出⛺️

🎬作者简介：大家好，我是听风与他🥇
☁️博客首页：CSDN主页听风与他
🌄每日一句：狠狠沉淀，顶峰相见

Web爬虫

什么是 Web 爬虫？

Web 爬虫是从网站中提取数据的过程。数据可以是 HTML、XML 或 JSON 等各种格式。Web 爬虫的应用包括研究、数据分析和自动化等方面。在 Python 中，使用第三方库如 BeautifulSoup 和 Requests 进行 Web 爬虫。

Web 爬虫是否合法？

Web 爬虫的合法性取决于其目的和方法的使用。一般来说，只要不违反网站的服务条款或版权法，Web 爬虫就是合法的。但是，如果 Web 爬虫涉及访问私人数据或侵犯某人的知识产权，那么它就是非法的。
Web 爬虫需要遵守道德规范。一些网站可能不希望其数据被爬取，重视尊重他们的意愿是非常重要的。此外，Web 爬虫可能会对网站的资源造成压力，因此使用 Web 爬虫时要注意责任。

可以被爬取的网页类型

一般来说，可以被爬取的网站类型可以分为两类：

静态网站，即网站的内容不会随时间变化而变化，如博客、新闻等网站。
动态网站，即网站的内容会随时间变化而变化，如在线商城、社交网站等网站。

在爬取不同类型的网站时，需要使用不同的爬虫工具和技术，比如对于静态网站，可以使用 requests 、urllib 等工具进行爬取；对于动态网站，一般需要使用 Selenium 等工具模拟浏览器行为进行爬取。

Python爬虫入门

基础用法

了解 HTML，CSS 和 JavaScript
安装第三方库(Requests 和 BeautifulSoup )

在进行网页内容解析时，需要了解 HTML、CSS 和 JavaScript 等前端技术的基础知识。HTML 是网页内容的结构化表示，CSS 用于控制网页的外观和样式，JavaScript 用于控制网页的交互行为。了解这些知识可以帮助我们更好地理解网页的结构和内容，从而更好地进行网页内容解析。

在开始网络抓取之前，我们需要安装一些必需的库。我们将在本章中使用 Requests 和 BeautifulSoup 库。

Requests 是一个常用于 HTTP 请求的 Python 库，在使用 Requests 库进行爬虫时，通常需要进行如下几个步骤：

发送请求，获取网页内容；
解析网页内容，提取需要的数据；
存储数据或进行后续处理。

Beautiful Soup 是另外一个 Python 库，用于从 HTML 和 XML 文件中提取数据。它通常用于网页抓取。它创建了一个解析树，便于在不同的节点之间轻松遍历。

# 下面语句在Jupyter Notebook环境中运行
!pip install requests beautifulsoup4

三种常见的 HTML 解析器

解析器名称	特点
html.parser	Python 自带的标准库，可以进行基本的 HTML 解析。速度比较快，但是容错能力稍差。
lxml	速度较快，容错能力较好，支持 XPath 等高级解析技术，但需要安装 C 语言库和依赖库。
html5lib	支持最好的容错能力，可以处理非标准的 HTML 代码，但是解析速度相对较慢。

因此，在选择解析器时，需要根据实际需要进行选择。如果需要解析的是基本的 HTML 代码，可以选择 html.parser 解析器；如果需要解析的是复杂的 HTML 代码，可以选择 lxml 解析器；如果需要容错能力最好的解析器，可以选择 html5lib 解析器。

我们用 Requests 和 Beautiful Soup 爬取百度首页的标题和正文内容。

import requests
from bs4 import BeautifulSoup

url = 'https://www.baidu.com'
response = requests.get(url)

# 根据文本的内容来推测它的编码方式，防止中文乱码输出。
response.encoding = response.apparent_encoding

soup = BeautifulSoup(response.text, 'html.parser')

title = soup.title.string
content = soup.get_text()

print('Title:', title)
print('Content:', content)

首先，我们导入了 Requests 和 BeautifulSoup 库。我们定义了一个 URL，并使用 requests.get() 方法获取页面内容。我们将获取到的内容传递给 BeautifulSoup 对象，并使用 ‘html.parser’ 进行解析。
然后，我们使用 soup.title.string 获取页面标题。同样地，我们使用 soup.get_text() 获取页面正文内容。

上机操作

博主操作网站地址:https://colab.research.google.com/
安装requests beautifulsoup4等依赖
爬取百度官网的标题和正文内容

在这里插入图片描述

友情推荐

这里推荐一个数据采集需要的代理池

📑文章末尾

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_61494821/article/details/137448593

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：REINFORCE及进阶算法讲解笔记
下一篇：怎么用docker安装MySQL

Win10下完全卸载Anaconda
在数据科学和机器学习的世界中，Anaconda是一款非常受欢迎的工具，它提供了一个方便的包管理系统和预装的科学计算库。然而，有时我们可能需要从系统中卸载Anaconda。本文将介绍在Windows 1
阅读更多2024-11-17
2025 年请假攻略！
今日面试题：什么是 Java 内部类？它有什么作用？
阅读更多2024-11-16
UDP协议
源端口：发送方进程bind的端口目的端口：接受方进程bind的端口udp的长度：包括报头和有效载荷最大为216（65535byte) 这就要求应用层将超过udp最大长度的数据，进行分割，分割为小于等
阅读更多2024-11-16
项目风险管理的3大要素
在项目管理领域，风险是一个具有双重性质的概念，它既包含可能带来积极影响的机会，也包含可能产生消极影响的威胁，然而，在日常交流中，人们往往只关注风险的负面方面，这种偏见可能导致错失利用潜在机会的可能性。
阅读更多2024-11-16
第3关 Java分支结构之多重if
多重 if 结构在 Java 编程中非常实用，可以根据不同的情况执行不同的代码，使程序更加灵活。但在使用时，要注意条件的顺序和合理性，以确保程序的正确性。在 Java 编程中，分支结构是控制程序流程的
阅读更多2024-11-16
用户态协议栈与内核模块通信机制
在传统的操作系统架构中，网络协议栈通常运行在内核态中，而应用程序则运行在用户态中。随着一些现代操作系统架构的变化，用户态协议栈逐渐成为一种趋势，尤其是对于高性能网络应用和定制协议栈的开发（例如：DPD
阅读更多2024-11-16
生成模型——PixelRNN与PixelCNN
PixelRNN 是一种基于循环神经网络（RNN）的像素级生成模型，通过逐个像素地生成图像来构建完整的图像，其核心思想是将图像中的像素视为序列，并利用 RNN 的能力来捕捉像素之间的依赖关系。Pixe
阅读更多2024-11-16
C/C++静态库引用过程中出现符号未定义的处理方式
【代码】静态库引用出现符号未定义的处理方式。
阅读更多2024-11-16
Docker compose部署Activemq
整个工具的代码都在Gitee或者Github地址内。
阅读更多2024-11-16
安全见闻8
声明：学习视频来自b站up主泷羽sec，如涉及侵权马上删除文章声明：本文主要用作技术分享，所有内容仅供参考。任何使用或依赖于本文信息所造成的法律后果均与本人无关。请读者自行判断风险，并遵循相关法律法
阅读更多2024-11-16

Web爬虫

📑前言

目录

Web爬虫

什么是 Web 爬虫？

Web 爬虫是否合法？

可以被爬取的网页类型

Python爬虫入门

基础用法

上机操作

友情推荐

📑文章末尾

相关文章