python爬虫初体验（三）——将网页数据导出csv和excel文件

🕗 发布于 2024-09-25 12:52 python 爬虫

1. 安装库

pip install requests
pip install pandas
pip install BeautifulSoup

requests 是一个非常流行的 Python 第三方库，用于简化 HTTP 请求。它允许你发送 HTTP/1.1 请求极其简单，而无需底层的socket库或urllib库。requests 库使得发起请求、处理响应变得非常容易，并且支持多种类型的HTTP请求（GET, POST, PUT, DELETE等）。
pandas主要用于数据分析和数据处理。它提供了大量的数据结构和数据操作功能，使得处理表格数据变得更加容易和高效。是目前比较常用的一款Python包。
BeautifulSoup4（通常简称 BeautifulSoup）是一个用于解析HTML和XML文档的Python库。它可以帮助开发者从网页中提取所需的数据，常用于Web爬虫项目、数据挖掘以及其他需要解析HTML或XML文档的场景。

2. 示例代码

# -*- coding: utf-8 -*-
import csv
import requests
import pandas as pd
from bs4 import BeautifulSoup

# 目标URL
url = 'https://www.shanghairanking.cn/rankings/bcur/2024'
# 请求头，模拟浏览器行为，防止被服务器识别为爬虫。
headers = {
  'Connection': 'keep-alive',
  'Cache-Control': 'no-store, no-cache, must-revalidate',
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36',
  'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate, br, zstd',
  'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
  'Referer': 'https://www.shanghairanking.cn/rankings/bcur/2024',
}
# 创建一个会话对象，保持连接
session = requests.session()

# 先访问一次首页，模拟用户行为
session.get('https://www.shanghairanking.cn')

# 发送带有headers的GET请求并获取响应内容
resHtml = session.get(url, headers=headers).content.decode('utf-8')

# 使用BeautifulSoup解析HTML内容
html_soup = BeautifulSoup(resHtml, 'html.parser')

# 查找表格中的所有行
all_goods_li = html_soup.find('table').find_all('tr')

def export_rank_csv():
  # 打开CSV文件准备写入
  with open('output.csv', 'wb') as csvfile:
  # 创建一个csv.writer对象
    csv_writer = csv.writer(csvfile)

    for row in all_goods_li:

      goods_info_list = []

      rank = row.find('div', class_="ranking")
      img_link = row.find('img')['src']
      name = row.find('span', class_='name-cn')
      tags = row.find('p', class_="tags")
      if name and img_link:

        goods_info_list.append(rank.get_text(strip=True).encode('utf-8'))
        goods_info_list.append(img_link)
        # 将name添加到列表中，并转换为UTF-8编码
        goods_info_list.append(name.get_text(strip=True).encode('utf-8'))
        goods_info_list.append(tags.get_text(strip=True).encode('utf-8'))

      csv_writer.writerow(goods_info_list)


def export_rank_excel():
  school_info_list = []

  for row in all_school_li:

    rank = row.find('div', class_="ranking")
    img_link = row.find('img')['src']
    name = row.find('span', class_='name-cn')
    tags = row.find('p', class_="tags")
    if name and img_link:

      school_info_list.append([
        rank.get_text(strip=True).encode('utf-8'),
        img_link,
        name.get_text(strip=True).encode('utf-8'),
        tags.get_text(strip=True).encode('utf-8')
      ])
  # 列名
  first_name = ["排名", "logo", "学校名称", "类型"]

  # 创建一个 DataFrame，列名为 first_name，数据为 school_info_list
  rank = pd.DataFrame(school_info_list, columns=first_name)

  # 将“排名”列转换为整数类型
  rank["排名"] = rank["排名"].astype(int)

  # 使用 openpyxl 作为写入引擎，将 DataFrame 写入 Excel 文件
  # 注意：这里使用了默认的 UTF-8 编码，通常不需要显式指定编码
  rank.to_excel(u"2024中国大学排名.xlsx", index=False)

if __name__ == '__main__':
  # 导出csv文件
  export_rank_csv()

3. 注意事项

编码问题：确保使用正确的编码处理非ASCII字符。
虽然在 Python 2 中 encode(‘utf-8’) 有助于处理编码问题，但在将数据写入 Excel 文件时通常不需要显式指定编码。但是如果导出文件为乱码，在文件开头添加 # -*- coding: utf-8 -*- 以确保文件以 UTF-8 编码保存。
依赖库：确保已经安装了 pandas 和 beautifulsoup4 库。
创建 DataFrame：使用 pandas 创建 DataFrame，列名为 first_name，数据为 school_info_list。
转换数据类型：将“排名”列的数据类型转换为整数。
导出到 Excel 文件：使用 to_excel 方法将 DataFrame 导出到 Excel 文件，index=False 表示不导出索引列。

原文地址：https://blog.csdn.net/qq_36012563/article/details/142480118

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：国产操作系统
下一篇：git误操作带来的麻烦-merge

c++ std::string初始化为nullptr的问题
在c++ std::string或者std::wstring 中是否可以使用nullptr初始化，首先可以说的是是可以用nullptr初始化的，但是程序编译没有问题，运行起来就挂了，char*是可以
阅读更多2024-09-25
HarmonyOS鸿蒙开发实战（5.0）多文件下载监听应用案例实践
多文件下载监听在应用开发中是一个非常常见的需求。本示例将介绍如何使用request上传下载模块实现多文件下载监听，如监听每个文件下载任务的进度，任务暂停，下载完成等下载情况。
阅读更多2024-09-25
实现网上超市：SpringBoot技术详解
基本类和包装类从根本的定义上，都有很明显的区分，计算机运行也会有很明显的差别，如果用错了会编译错误还会影响运行效果的，Java的各种优点只需要按部就班的学习使用即可。Oracle数据库不比SQL Se
阅读更多2024-09-25
必应广告投放推广收费标准和流程
微软必应Bing广告平台，凭借其强大的技术实力和精准的数据分析能力，已成为众多企业广告推广的首选。携手云衔科技，企业不仅能够轻松完成必应Bing国内广告的开户流程，还能享受到专业的代运营服务，实现精准
阅读更多2024-09-25
算法：数值的整数次方
本文主要介绍数值的整数次方问题
阅读更多2024-09-25
服务器安装SG15扩展全版本（宝塔+任意服务器通用）完整教程
这篇文章介绍了在服务器上安装 SG15 扩展全版本的步骤，以宝塔为平台，适用于任意服务器。作者为了保护免费插件不被盗卖，决定记录下安装 SG15 扩展的过程。
阅读更多2024-09-25
【C++掌中宝】C++ 中的空指针救世主——nullptr
C++中nullptr的相关内容分享
阅读更多2024-09-25
【LLM开源项目】LLMs-微调框架-LLaMA-Factory入门指南v3.0
我们通过量化技术将高精度表示的预训练模型转换为低精度的模型，从而在避免过多损失模型性能的情况下减少显存占用并加速推理，我们希望低精度数据类型在有限的表示范围内尽可能地接近高精度数据类型的表示，因此我们
阅读更多2024-09-25
多用户自定义商城小程序源码系统独立部署到源代码包以及搭建部署教程
这一系统的开发旨在为企业和商家提供一个自主掌控、高度定制化的商城平台，使其能够根据自身业务特点和目标客户群体，打造独具特色的线上购物体验。同时，独立部署的方式让用户拥有更大的自主权和数据安全性，满足了
阅读更多2024-09-25
开源UNI-SOP云统一认证平台
一款开源的商用级别认证平台UNI-SOP
阅读更多2024-09-25

python爬虫初体验（三）——将网页数据导出csv和excel文件

1. 安装库

2. 示例代码

3. 注意事项

相关文章