Python爬虫（1） --基础知识

🕗 发布于 2024-07-20 09:40 python 爬虫 开发语言

爬虫

爬虫是什么？ spider

是一种模仿浏览器上网过程的一种程序，可以获取一些网页的数据

基础知识

统一资源定位符 uniform resource locator

http: 超文本传输协议 HyperText Transfer Protocol 默认端口 80

https: 安全的超文本传输协议 security 默认端口 443

www.example.com 域名

80 端口 port

/path/to/myfile.html 资源路径

?key1=value1&key2=value2 参数 & 表示多个参数的拼接

# 锚点

前端代码

<!DOCTYPE html> 声明为 HTML5 文档
<html>..</html> 是网页的根元素
<head>..</head> 元素包含了文档的元（meta）数据，如 <meta charset="utf-8"> 定义网页编码格式为 utf-8。
<title>..<title> 元素描述了文档的标题
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<ul>..</ul> 定义无序列表
<ol>..</ol>定义有序列表
<li>..</li>表示列表项
<img src="" alt="">表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接

<!DOCTYPE html>
<html>
    <head>
        <!-- 内嵌样式 -->
        <style type="text/css">
        body{
            background-color:yellow;
        }
        p{
            font-size: 30px;
            color: springgreen;
        }
        </style>
        <meta charset="utf-8">
        <title>兰智数加学院</title>
    </head>
    <body>
        <a href="www.anhuisjxy.com">点击访问</a>
        <h1>兰智数加www.anhuisjxy.com</h1>
        <h2>Python爬虫</h2>
        <div>
            <p>认识网页结构</p>
            <ul>
                <li>HTML</li>
                <li>CSS</li>
            </ul>
        </div>
    </body>
</html>

<!DOCTYPE html>
<html>
    <head>
        <style type="text/css">
        body{
            background-color: rgb(220, 226, 226);
        }
        </style>
        <meta charset="utf-8">
        <title>兰智数加学院</title>
    </head>
    <body>
        <h1 style="color: blue;">兰智数加www.anhuisjxy.com</h1>
        <h2>Python爬虫</h2>
        <p>点击下方按钮获取当前时间</p>
        <button onclick="DisplayDate()">点击这里</button>
        <p id="time" style="color: red;"></p>
        <!-- script标签内部编写js代码 -->
        <script>
            function DisplayDate(){
            document.getElementById("time").innerHTML=Date()
            }
        </script>
        </div>
    </body>
</html>

爬虫代码

安装requests包

pip install requests

pip 换源

pip config set global.index-url https://pypi.mirrors.ustc.edu.cn/simple/
pip config set install.trusted-host pypi.mirrors.ustc.edu.cn

User-Agent：身份标识表示你是哪个浏览器

原文地址：https://blog.csdn.net/m0_74896766/article/details/140560604

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：玄机——第九章-blueteam 的小心思 wp（HVV——“蓝队”应急响应简单模拟例题）
下一篇：HMACSHA256的原理和在C# 中的使用

《FreeRTOS任务基础知识篇》
FreeRTOS任务基础知识。
阅读更多2024-11-15
智谱AI清影升级:引领AI视频进入音效新时代
拟人虎，动物时尚秀，全身，穿着时尚的衣服和精美配饰，拟人化，高端设计风格，苗条的身体，正面，冷酷而高贵，米兰时装秀，动态捕捉T台秀，面对相机，全景镜头，栩栩如生，正在走秀，豪华的T台背景，极精细，广角
阅读更多2024-11-15
安全见闻 -- 量子计算
总之，量子计算安全是一个复杂领域，需要综合运行物理学、计算机科学、密码学等多学科知识进行学习和研究。通过了解漏洞风险并采用适当的测试方法，可以更好地保障量子信息系统的安全。
阅读更多2024-11-15
DVWA靶场通关——SQL Injection篇
该PHP代码的主要功能是根据用户提供的id参数，从数据库中查询对应的用户信息（包括first_name和last_name），并将查询结果显示给用户。在第二段代码中，$id 变量同样从 $_POST
阅读更多2024-11-15
如何解决“无法在 ‘HTMLElement‘ 上设置 ‘innerText‘ 属性”的问题
类型断言：将元素断言为支持innerText的类型。使用：一个更兼容的文本内容设置方法。类型检查：利用instanceof确保类型正确后再操作。：直接创建并插入文本节点，适合动态内容插入。以上四种方法
阅读更多2024-11-15
API 数据处理与 SQL 批量更新技巧：CASE 语句优化操作指南
在现代应用程序开发中，数据处理和数据库操作是不可或缺的一部分。特别是在处理大量数据时，如何高效地更新数据库记录成为了关键问题。本文将对比两种常见的数据库更新方法：一种是使用CASE语句进行批量更新，另
阅读更多2024-11-15
如何解决JAVA程序通过obloader并发导数导致系统夯住的问题 | OceanBase 运维实践
在并发导数据到OceanBase的场景，系统出现大量obloader 进程，应用java 程序夯住不可用，最终导致容器OOM重启。本文介绍了整个案例的问题排查过程，以及相应的解决方案。
阅读更多2024-11-15
区块链智能合约开发：全面解析与实践指南
尽管智能合约的开发面临一定的挑战，但随着技术的成熟与生态的完善，智能合约的应用场景会越来越广泛，从DeFi到NFT，再到供应链和保险等领域，智能合约正在为各行各业带来创新和变革。与传统合约不同，智能合
阅读更多2024-11-15
Axure设计之文本编辑器制作教程
文本编辑器是一个功能强大的工具，允许用户在图形界面中创建和编辑文本的格式和布局，如字体样式、大小、颜色、对齐方式等，在Web端实际项目中，文本编辑器的使用非常频繁。
阅读更多2024-11-15
PyTorch深度学习与企业级项目实战-预训练语言模型GPT
尽管神经网络模型在自然语言处理任务中已取得较好的效果，但其相对于非神经网络模型的优势并没有像在计算机视觉领域那么明显。该现象的主要原因可归结于当前自然语言处理任务的数据集相对较小（除机器翻译任务外）。
阅读更多2024-11-15

Python爬虫（1） --基础知识

爬虫

基础知识

爬虫代码

相关文章