使用python爬取某新闻网并进行数据分析

🕗 发布于 2024-11-06 05:47 python 数据分析自动化爬虫 urllib

引言

在这个信息爆炸的时代，获取并分析特定网站上的信息变得越来越重要。本文将通过一个实例来展示如何使用Python编写一个简单的网络爬虫，抓取某新闻网上的新闻信息，并对这些数据进行基本的统计分析。我们将使用urllib、lxml、pandas以及matplotlib等库来完成这项任务。
目标网站

在这里插入图片描述

环境准备

在开始之前，请确保你的环境中已安装了以下Python库：

urllib
lxml
pandas
matplotlib
fake_useragent

可以通过pip命令来安装这些库，例如：

pip install lxml pandas matplotlib fake_useragent

代码详解

1. 导入必要的库

首先，我们需要导入所有需要用到的Python库。这里包括了用于网络请求的urllib，解析HTML的lxml，处理数据的pandas，以及用于绘制图表的matplotlib。

import urllib.request
from urllib.parse import urlparse, urljoin
import pandas as pd
from fake_useragent import UserAgent
from lxml import etree
import re
import time
from datetime import datetime, timedelta
from matplotlib import pyplot as plt

2. 定义基础URL及标签页面

接下来定义我们要爬取的基础URL以及各个新闻标签对应的初始页面URL。这将帮助我们构建完整的新闻链接。

# 基础URL
base_url = 'https://news.tju.edu.cn'

# 各个标签的初始URL
tags = {
   
    '全部': 'https://news.tju.edu.cn/xnxw1/qb/1146.htm',
    '科研': 'https://news.tju.edu.cn/xnxw1/ky/124.htm',
    '教学': 'https://news.tju.edu.cn/xnxw1/jx/97.htm',
    '交流': 'https://news.tju.edu.cn/xnxw1/jl/165.htm',
    '校友': 'https://news.tju.edu.cn/xnxw1/xy/36.htm',
    '管理': 'https://news.tju.edu.cn/xnxw1/gl/292.htm',
    '活动': 'https://news.tju.edu.cn/xnxw1/hd/401.htm',
    '观点': 'https://news.tju.edu.cn/xnxw1/gd/15.htm',
    '人物': 'https://news.tju.edu.cn/xnxw1/rw/10.htm',
    '文化': 'https://news.tju.edu.cn/xnxw1/wh/3.htm'
}

3. 初始化存储列表

创建一个空列表all_news_data，用于存储所有抓取到的新闻数据。

# 存储所有新闻数据的列表
all_news_data = []

原文地址：https://blog.csdn.net/2301_78198846/article/details/143506181

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：酒店民宿小程序，探索行业数字化管理发展
下一篇：服装品牌零售业态融合中的创新发展：以开源 AI 智能名片 S2B2C 商城小程序为视角

身份证人像照片验真 API 对接说明
本文将介绍一种身份证人像照片验真 API 对接说明，它可用于传入身份证人像面照片，识别身份证照片上的信息，并将姓名、身份证号、身份证人像照片与权威库的证件照进行比对，是否属于同一个人，从而验证身份证
阅读更多2024-11-06
Spring Boot 内置工具类
断言是一个逻辑判断，用于检查不应该发生的情况Assert 关键字在 JDK1.4 中引入，可通过 JVM 参数-enableassertions开启SpringBoot 中提供了 Assert 断言工
阅读更多2024-11-06
2023下半年上午（1~11）
也就是父类中定义的方法它有自己的行为，子类继承父类，默认也继承这个方法，也有这个行为，如果子类想用这个方法实现一些自己的操作行为，就可以覆盖重写。例如要相加，下面2个相加add的方法，可以在方法名ad
阅读更多2024-11-06
机器人零位、工作空间、坐标系及其变换，以UR5e机器人为例
刚体坐标系通常固定在机器人部件上，相对于基坐标系进行描述。刚体坐标系在运动过程中相对于基坐标系保持不变，但在各个关节之间的相对关系会随着运动发生变化。每个连杆坐标系通常位于两个关节之间，描述当前连杆相
阅读更多2024-11-06
屋面节能通风装置（薄型/流线型）
4、可纵向或横向布置，常用代号有TCA-1508nxy、TCA-2008nxy、TCA-3008nxy、TCA-6008nxy、TCA-9008nxy、TCA-12008nxy等；4、常用窗型代号TC
阅读更多2024-11-06
【风力发电】基于Matlab的双馈风力发电机建模仿真设计
本文针对双馈风力发电机（DFIG）系统的建模与仿真，提出了一种基于MATLAB/Simulink的设计方法。双馈风力发电机在风能利用和电力输出方面具有较高的灵活性。通过MATLAB建模和仿真，验证了D
阅读更多2024-11-06
大数据新视界 -- 大数据大厂之 Impala 性能优化：解锁大数据分析的速度密码（上）（1/30）
本文围绕 Impala 性能优化展开，阐述其对大数据分析效率和企业决策的关键意义，剖析数据规模与复杂度、查询优化等挑战。介绍数据存储（分区、压缩）和查询（索引、语句重塑）优化策略，并通过电商和金融案例
阅读更多2024-11-06
HarmonyOS 移动应用开发
HarmonyOS 中文名字是鸿蒙操作系统官方解释：HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。鸿蒙操作系统在传统的单设备系统能力的基础上，提出了基于同一套系统能力、适配多
阅读更多2024-11-06
qt获取本机IP和定位
可以获取公有IP和当前用户所在市的API ，http://whois.pconline.com.cn/ipJson.jsp?json=true找来找去都找不着，那就自己写一个╰（‵□′）╯
阅读更多2024-11-06
【vue-pdf】简单封装pdf预览组件
【代码】【vue-pdf】简单封装pdf预览组件。在Vue中使用vue-pdf来展示PDF文件，首先需要安装vue-pdf
阅读更多2024-11-06