爬取NBA球员信息并可视化小白入门

🕗 发布于 2025-01-23 06:04 python 爬虫数据可视化 pycharm 数据分析

网址:虎扑体育-NBA球员得分数据排行第1页

步骤:

分析页面确定URL地址
模拟浏览器向服务器发送请求
数据解析提取想要的数据
保存数据

**爬虫所需要的模块**
requests(发送HTTP请求)	parsel(解析HTML内容)
pandas(数据保存模块)

第一步分析页面 --确定是静态页面还是动态页面
右击点击查看网页源代码在新窗口中搜索(Ctrl+F)我们所需要的数据

通过分析可得此网站为静态页面 URL地址为浏览器栏中的地址

接着我们构建基本的爬虫程序模拟浏览器向服务器发送请求

因为此网站没有反爬虫机制基本的浏览器伪装都不需要即可直接获取到数据

# 导包  需要通过pip install 包名下载
import requests
# 发送网络请求的地址
url = 'https://nba.hupu.com/stats/players'
resp = requests.get(url)
# 调用对象里面的属性 获取到返回的文本数据
print(resp.text)

确认爬取下来中的页面数据中有我们所需要的数据

Ctrl+F 快捷键打开搜索框查看数据

然后提取我们想要的数据点击元素面板分析数据所在的结构

分析可得我们要取tbody下面没有class属性color_font1 bg_a 的tr

#导包 parsel
# 实例化一个浏览器对象
selector = parsel.Selector(resp.text)
# 拿到所有的tr
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")

接着按照元素面板的结构取值遍历所有的tr

球员: class属性等于left下面的a标签中的文本

球队名字：从根标签中开始写Xpath css不好匹配
得分: class属性等于bg_b的td 中的文本

下面的数据通过xpath 取发现是tr标签下5-12个

for li in lis:
    name = li.css('.left a::text').get()
    team = li.xpath('./td[3]/a/text()').get()
    score = li.css('.bg_b::text').get() 
    hit_shot = li.xpath('./td[5]/text()').get()
    hit_rate = li.xpath('./td[6]/text()').get()
    hit_three = li.xpath('./td[7]/text()').get()
    three_rate = li.xpath('./td[8]/text()').get()
    hit_penalty = li.xpath('./td[9]/text()').get()
    penalty_rate = li.xpath('./td[10]/text()').get()
    session = li.xpath('./td[11]/text()').get()
    play_time = li.xpath('./td[12]/text()').get()
    print(name, team, score,hit_shot,hit_rate,hit_three,hit_penalty,penalty_rate,session,play_time)

最后保存数据保存为excel文件

# 使用字典来存储数据    
dit = {
        '球员': name,
        '球队': team,
        '得分': score,
        '命中-出手': hit_shot,
        '命中率': hit_rate,
        '命中-三分': hit_three,
        '三分命中率': three_rate,
        '命中-罚球': hit_penalty,
        '罚球命中率': penalty_rate,
        '场次': session,
        '上场时间': play_time,
    }
# 定义一个空列表 将字典数据添加进去
all.append(dit)

导入pandas 模块保存数据到excel表格中
以下是本次案例的全部代码供学习交流使用

import requests
import parsel
import pandas as pd

url = 'https://nba.hupu.com/stats/players'
all = []
resp = requests.get(url)
selector = parsel.Selector(resp.text)
lis = selector.xpath("//tbody/tr[not(@class='color_font1 bg_a')]")
for li in lis:
    name = li.css('.left a::text').get()
    team = li.xpath('./td[3]/a/text()').get()
    score = li.css('.bg_b::text').get()
    hit_shot = li.xpath('./td[5]/text()').get()
    hit_rate = li.xpath('./td[6]/text()').get()
    hit_three = li.xpath('./td[7]/text()').get()
    three_rate = li.xpath('./td[8]/text()').get()
    hit_penalty = li.xpath('./td[9]/text()').get()
    penalty_rate = li.xpath('./td[10]/text()').get()
    session = li.xpath('./td[11]/text()').get()
    play_time = li.xpath('./td[12]/text()').get()
    dit = {
        '球员': name,
        '球队': team,
        '得分': score,
        '命中-出手': hit_shot,
        '命中率': hit_rate,
        '命中-三分': hit_three,
        '三分命中率': three_rate,
        '命中-罚球': hit_penalty,
        '罚球命中率': penalty_rate,
        '场次': session,
        '上场时间': play_time,
    }
    all.append(dit)
    pd.DataFrame(all).to_excel('NBA.xlsx', index=False)

数据可视化板块

**数据可视化所需要的模块**
pandas(数据处理和分析)	pyecharts

import pandas as pd
from pyecharts import options as opts
from pyecharts.charts import Line

df = pd.read_excel('NBA.xlsx',index_col=False)

players = df['球员'].tolist()
scores = df['得分'].tolist()
session = df['场次'].tolist()
# 创建柱状图对象
bar = (
    Line()
  .add_xaxis(players)  # x 轴为球员
  .add_yaxis("得分", scores)  # y 轴为得分
  .add_yaxis("场次",session)
  .set_global_opts(
        title_opts=opts.TitleOpts(title="球员得分情况柱状图"),
        toolbox_opts=opts.ToolboxOpts(is_show=True),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),  # 旋转 x 轴标签，防止重叠
        yaxis_opts=opts.AxisOpts(name="得分")
    )
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)

# 渲染图表到 HTML 文件
bar.render("player_score_bar_chart.html")

原文地址：https://blog.csdn.net/2302_80243887/article/details/145292458

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【软件测试项目实战】淘宝网：商品购买功能测试
下一篇：BUUCTF_Web(UPLOAD COURSE 1)

[java] java基础-字符串篇
public StringJoiner(间隔符号,开始符号,结束符号)：创建一个StringJoiner对象，指定拼接时的间隔符号，开始符号，结束符号。指JDK中提供的各种功能的Java类，这些类将底
阅读更多2025-01-24
【C++笔记】哈希表底层实现的深度剖析
哈喽，各位小伙伴大家好!上期我们讲了使用红黑树封装map和set。今天我们来讲一下哈希表底层实现的深度剖析。话不多说，我们进入正题！向大厂冲锋unordered_set的声明如下，Key就是unord
阅读更多2025-01-24
板球背后的数据魔法：如何用数据分析提升印度板球比赛策略
随着板球赛事的数据日益增多，分析技术和方法不断进步，数据已经成为理解和预测比赛结果的核心工具。无论是通过分析球员的个人表现、球队的整体策略，还是通过实时的比赛数据预测，板球比赛的未来将更加依赖数据驱动
阅读更多2025-01-24
数据分析 six库
six库是Python的一个兼容性库，旨在帮助开发者更轻松地编写同时兼容Python 2和Python 3的代码。它是由Ben Hoyt开发的，最初发布于2010年，并在Python社区中被广泛使用。
阅读更多2025-01-24
系统相关类——java.lang.Runtime 类（二）
小编打算近期更俩三期类的专栏，一些常用的专集类，给大家分好类别总结和详细的代码举例解释。今天是第二个java.lang.Runtime 类我们一直都是以这样的形式，让新手小白轻松理解复杂晦涩的概念，把
阅读更多2025-01-24
pandas基础：基本数据结构
类型，而选择多列时返回的是 DataFrame 类型。这种行为是设计上的选择，目的是为了提供更灵活的数据操作方式。中，当你从DataFrame中选择列时，选择的方式会影响返回的数据类型。具体来说，选择
阅读更多2025-01-24
快慢指针及原理证明(swift实现)
快慢指针是一种双指针技巧，常用于遍历链表或是数组。优势如下：1.线性时间复杂度：快慢指针能够在O(n)时间内完成遍历，比暴力方法更高效。2.实时处理：无需额外存储大规模数据，可以在流式日志处理中使
阅读更多2025-01-24
【数据库】详解MySQL数据库中索引的本质与底层原理
这个过程叫寻道，所消耗的时间叫做寻道时间。答：局部性原理：当一个数据被用到时，其附近的数据被用到的概率会增大，所以操作系统为了提高效率，读取数据时往往不是按需读取，而是每次都会预读，即使只需要一个字节
阅读更多2025-01-24
如何处理langcleanupsysprepaction.dll文件的丢失与损坏问题
在使用Windows操作系统时，有时可能会遇到一些DLL文件（动态链接库）丢失或损坏的问题，文件也不例外。这个文件虽然不像一些常见的系统DLL文件那样广为人知，但它对于某些特定的系统操作或应用程序来说
阅读更多2025-01-24
Couchbase UI: Indexes
在Couchbase中，索引的这些指标可以帮助你评估索引的性能和状态。
阅读更多2025-01-24

爬取NBA球员信息并可视化小白入门

网址:虎扑体育-NBA球员得分数据排行 第1页

步骤:

第一步分析页面 --确定是静态页面还是动态页面 右击点击 查看网页源代码 在新窗口中搜索(Ctrl+F)我们所需要的数据

接着我们构建基本的爬虫程序 模拟浏览器 向服务器发送请求

最后保存数据 保存为excel文件

数据可视化板块

相关文章

网址:虎扑体育-NBA球员得分数据排行第1页

第一步分析页面 --确定是静态页面还是动态页面
右击点击查看网页源代码在新窗口中搜索(Ctrl+F)我们所需要的数据

接着我们构建基本的爬虫程序模拟浏览器向服务器发送请求

最后保存数据保存为excel文件