爬虫基础（下）

🕗 发布于 2024-02-22 18:27 爬虫

requests模块可以用来获取网络数据；

那么对于爬虫来说，要获取下图网页中的内容，就需要网页的URL。

复制链接方法是，打开网页，点击链接框，右键选择复制。

requests.get()函数可用于模拟浏览器请求网页的过程，在Python语言中使用该函数，就能够获取网页数据。

get()函数中传入要访问网页的URL，就像浏览器打开URL一样。

（1）获取网页内容的步骤

（2）代码实现

# 使用import导入requests模块
import requests

# 将网页链接赋值给url
url = "https://*****************/"

# 使用requests.get()方法获取url的内容，将结果赋值给response
response = requests.get(url)

# 输出response
print(response)

返回的response对象，就是响应消息；

（3）获取状态码

在浏览器中查看Response Headers中的信息就能够找到status:200，状态码200代表此次请求执行成功。

使用.status_code属性就可以查看状态码，这里输出的状态码数据类型是整型

import requests

url = "https://nocturne-spider.baicizhan.com/2020/07/29/example-post-3/"

response = requests.get(url)

statusCode = response.status_code

print(statusCode)

而只有状态码返回为200时，才能够成功获取到网页内容。

为满足上面的运行逻辑，我们要使用条件判断语句if..else先判断状态码，当状态码等于200时，再进行下一步操作。


if response.status_code == 200:
   
    print(response.status_code)

else:
   
    print("请求数据失败")

（4）提取信息，获取内容

通过请求URL，获取到了Web服务器返回的信息，

要用.text属性，该属性能够将获取到的信息提取出来。

网页内容多，我们可以用切片（遵循左闭右开，将字符串进行分割）方法，输出前1000个字符；

if response.status_code == 200:
    
    content = response.text[:1000]
    
    print(content)

else：

    print("请求数据失败")

（5）HTML

刚刚输出的内容是HTML语言，它是由许多的标签组成，这些标签构成网页的内容；

这个就是类似输出的HTML语言

<!DOCTYPE html>
<html lang="zh-CN">
<head>
  <meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=2">
<meta name="theme-color" content="#222">
<meta name="generator" content="Hexo 5.1.1">
  <link rel="apple-touch-icon" sizes="180x180" href="/images/apple-touch-icon-next.png">
  <link rel="icon" type="image/png" sizes="32x32" href="/images/favicon-32x32-next.png">
  <link rel="icon" type="image/png" sizes="16x16" href="/images/favicon-16x16-next.png">
  <link rel="mask-icon" href="/images/logo.svg" color="#222">

<link rel="stylesheet" href="/css/main.css">


<link rel="stylesheet" href="/lib/font-awesome/css/all.min.css">

（5）总结

HTML是构成网页的标记语言。

URL指定了要访问文档的具体地址。

HTTP协议规定了文档的传递方式。

爬虫就是根据URL，通过HTTP协议去获取HTML内容。

原文地址：https://blog.csdn.net/binhyun/article/details/136207035

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：高精度双向计量旋翼干式脉冲水表
下一篇：Windows下载MobaXterm软件访问远程服务器的方法

web worker使用
在worker中如果要使用es语法，需要加上 { type: ‘module’ }
阅读更多2024-09-21
激光粉尘传感器：筑牢粮仓安全防线，有效应对粮食粉尘爆炸高危风险
粮食粉尘爆炸的危害不容忽视，而激光粉尘传感器作为现代科技在安全生产领域的重要应用，为粮食企业提供了强有力的安全保障。通过实时监测粉尘浓度，及时预警并采取相应措施，不仅能够有效预防粉尘爆炸事故的发生，还
阅读更多2024-09-21
Rocprofiler测试
Rocprofiler测试。
阅读更多2024-09-21
fmql之ubuntu联网
需求：fmql搭载linux，并且可以远程访问。
阅读更多2024-09-21
VulnHub-Narak靶机笔记
Narak是一台Vulnhub的靶机，其中有简单的tftp和webdav的利用，以及motd文件的一些知识。
阅读更多2024-09-21
【Kubernetes】常见面试题汇总（二十七）
Kubernetes在不同的云基础架构上运行各种工作负载Google 容器引擎
阅读更多2024-09-21
数字化转型的理论框架对比：从多维视角指导企业成功变革对比DPBOK&IT4IT&COBIT&TOGAF
本文将对比DPBOK与其他常见的数字化转型框架，如IT4IT、COBIT、TOGAF，深入探讨这些理论在不同维度上的差异，并从多个角度解读它们对企业数字化转型的实际指导意义。
阅读更多2024-09-21
构建响应式API：FastAPI Webhooks如何改变你的应用程序
如果你在构建多个微服务或应用程序，Webhook可以用来在它们之间进行实时通信。
阅读更多2024-09-21
第二十九章添加数字签名 - 指定 KeyInfo 的规范化方法
KeyInfo>
阅读更多2024-09-21
Gradio离线部署到内网，资源加载失败问题（Gradio离线部署问题解决方法）
Gradio作为一个快速构建一个演示或Web应用的开源Python包，被广泛使用，最近在用这个包进行AI应用构建，打包部署到内网Docker的时候发现有些资源无法使用。gradio 运行时的UI使用的
阅读更多2024-09-21