用Python编写一个Web爬虫：自动获取感兴趣的新闻

🕗 发布于 2024-10-09 20:48 python 前端爬虫

在当今信息化社会中，获取新闻信息的方式已变得多样化。除了传统的新闻订阅和新闻推送服务，使用编程技术自动抓取感兴趣的新闻也成为了许多开发者和技术爱好者的选择。本文将详细介绍如何使用Python编写一个简单的Web爬虫，定期从新闻网站抓取文章，并提取感兴趣的新闻信息。我们将使用Python中的requests和BeautifulSoup库来完成这一任务。

一、准备工作

在开始编写Web爬虫之前，我们需要做一些准备工作。主要包括安装所需的库以及选择我们想要抓取的新闻网站。

1.1 所需库

为了实现爬虫功能，我们需要用到以下两个Python库：

requests：用于发送HTTP请求，获取网页内容。
BeautifulSoup：用于解析HTML文档，并提取我们需要的数据。

在命令行中运行以下命令来安装这两个库：

pip install requests
pip install beautifulsoup4

1.2 确定目标网站

我们将选择一个新闻网站作为目标，并编写代码定期获取其中的新闻信息。在实际应用中，可以选择任何感兴趣的新闻网站，例如：BBC、CNN、纽约时报等。在本文中，我们以一个假设的新闻网站https://example.com/news为例进行说明。

二、编写爬虫

2.1 爬取网页内容

首先，我们需要编写代码来获取新闻网站的网页内容。使用requests库，我们可以非常方便地发送HTTP请求并获取网页的HTML代码。

import requests

def get_page_content(url):
    try:
        response = requests.get(url)
        # 判断请求是否成功
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败，状态码：{
     response.status_code}")
    except requests.RequestException as e:
        print(f"请求出错：{
     e}")
    return None

在上面的代码中，get_page_content函数接收一个URL作为参数，使用requests.get方法发送HTTP请求。如果请求成功，返回网页的HTML内容。否则，输出错误信息。

2.2 解析HTML

获取网页内容后，下一步是解析HTML文档，提取出我们需要的新闻标题、摘要或链接。这时我们需要用到BeautifulSoup库。以下代码展示了如何解析网页内容并提取出新闻标题。

from bs4 import BeautifulSoup

def parse_news(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 假设新闻标题位于每篇文章的 <h2> 标签中
    news_list = soup.find_all

原文地址：https://blog.csdn.net/nokiaguy/article/details/142705733

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：各种数据库的临时编号的形成（Index）
下一篇：【基础算法总结】字符串篇

erlang学习:Linux命令学习11
同样.sh文件中我也放的是echo，估计也是将echo的内容放入了信箱当中，因此没有看到输出结果，我进行了修改之后就能够正常看到定时器执行任务了。crontab -u -e：以指定用户的身份编辑定时
阅读更多2024-10-09
如何通过jupyter调用服务器端的GPU资源
在本地在网页上编写、调试python代码，而实际python代码是通过远程服务器编译、运行的。这种模式特别适合做试验，不断测试代码的功能等。（VScode可以远程访问，但vscode不能像jupyte
阅读更多2024-10-09
Jenkins新安装的插件ThinBackup，如何恢复之前的备份
本文梳理了一下如何恢复之前的备份，你只要告诉插件，你的备份目录在哪即可。同时，这也告诫我们，一定要做好及时的备份。最好是有一定的指数级策略，重要的数据要备份几个月，甚至一年。
阅读更多2024-10-09
人才画像的重要性，如何打造精准人才画像？
金现代人才画像系统基于企业发展对人才的要求，以岗位胜任力模型为基础定义人才标准，通过采集包括基本情况、评估数据、绩效数据等多维度的员工信息对指定员工进行人才对标、盘点，结合诊断结果对存在短板的员工进行
阅读更多2024-10-09
使用 Python 实现图形学的辐射度算法
辐射度算法的核心思想是将场景中的光能视为一种分布在物体表面的量，利用这一量来计算各个表面点的光照。辐射度是描述表面发光或反射光能的量度，它包括了直接光照和间接光照的贡献。场景建模：构建一个包含所有光源
阅读更多2024-10-09
卸载各种服务的详尽方法
2. 如果是通过源码编译安装的，执行以下步骤： - 停止 Nginx 服务：`sudo /usr/local/nginx/sbin/nginx -s stop` - 进入 Nginx 安装目录，删除相
阅读更多2024-10-09
新书速览|你好，C++
著有《我的第一本C++书》和《C语言程序伴侣》。，更新了所有代码和讲解，并增加了新标准引入的特性，如智能指针、std::thread等，使读者能够掌握最新的C++知识。，以一个工资程序的不断优化和完善
阅读更多2024-10-09
W外链平台有什么优势？
综上所述，W外链在短网址服务中属于功能较为全面且先进的服务之一，它不仅关注基础的网址缩短，还致力于通过技术创新和增值服务来满足用户和企业更复杂的需求。不过，具体使用效果还需根据实际体验和用户评价来判断
阅读更多2024-10-09
Python | Leetcode Python题解之第458题可怜的小猪
Python | Leetcode Python题解之第458题可怜的小猪
阅读更多2024-10-09
解决触摸屏鼠标乱动的问题：查看触摸版和触摸屏的代码并关闭
从你提供的输出来看，你的系统中有触摸板和触摸屏设备。以下是如何禁用它们的步骤。
阅读更多2024-10-09