Python 爬虫根据ID获得UP视频信息

🕗 发布于 2024-09-28 18:41 python 开发语言 爬虫 selenium

思路：

用selenium库对网页进行获取，然后用bs4进行分析，拿到bv号，标题，封面，时长，播放量，发布时间

先启动webdriver.，进入网页之后，先等几秒，等加载完全了，再获取网页

options = webdriver.FirefoxOptions()

'''

无头模式启动，让selenium不用真的打开网页，节约资源同时加快速度

'''
options.add_argument('--headless')
firefox = webdriver.Firefox(options=options)

firefox.get( "https://space.bilibili.com/id/video?tid=0&pn=1keyword=&order=pubdate”)
'''

休眠

'''
time.sleep(4)
'''

使用BeautifulSoup的html.parser进行分析

'''
html = BeautifulSoup(firefox.page_source, features="html.parser")

（id就是你要抓的up的id）

当你拿到这些美妙的数据之后就要开始分析了，看看什么是要的，什么是不要的，首先我们先打开一个Up的主页，然后按F12，“让我们来看看，它的内构”

像这样，左边变色了，那么就代表你选中的这个块儿，是左边那个区域的
好，我们展开慢慢翻

翻到这儿，会发现，哦，原来一页上的所有视频，都放在了一个叫li的里面，且这个li的class属性都是small-item new fakeDanmu-item 而我们需要的BV号就在li的data-aid属性里不急往后看看，里面其他信息在那儿

好好好，li里就只有一个img而这个img里的src属性和alt属性就是我们要的封面和标题

在下面也能找到bv号，但是因为上面我们已经拿到了所以不用再拿了，我们拿class属性为lengthd的span里的时长，class为play的span里的span的播放量，和class为time的span的发布时间
都找齐了，那，开整

'''

找到所有的class是mall-item fakeDanmu-item的li

'''
videoList = html.find_all("li",attrs={"class":"small-item fakeDanmu-item"})

'''

下面就用一个li来演示怎么获得其中我们要的数据，从上到下分别说，bv号，标题，图片，时长，播放量，发布日期

'''

video = videoList[0]

#bv号

bv = video.get("data-aid")
img = video.find("img")

#标题
title = img.get("alt")

#图片
image = img.get("src")

#时长
duration = video.find("span",attrs={"class":"length"}).text

#播放量
playCount = video.find("span",attrs={"class":"play"}).find("span").text

#发布日期
date = video.find("span",attrs={"class":"time"}).text.strip()

然后发现，嘶，好像不止一页，而且页数还和
https://space.bilibili.com/id/video?tid=0&pn=1keyword=&order=pubdate
中的pn值有关，那好办了，找到最大有几页，然后循环获取网页，并处理就行了，现在来找找页数，有两个办法，第一，获得最多有几个视频，然后(视频数/30)向上取整数，就能获得页数，第二，从页面中直接获得

像这样，999+的就麻烦了，那就取获得页码吧
我们在装li的那个div下面找到了页码

然后在这里面按Ctrl+F

发现这个网页里就它class属性用的be-pager-total

'''

因为他是把文字和数字用空格隔开，所有可用split来分割字符串，然后获得第二项，也就是我们要的页码

'''
pn = html.find('span', attrs={'class':'be-pager-total'}).

pn = pn.text.split(' ')[1]

然后做个循环

for pnnumber in range(pn):

url = "https://space.bilibili.com/id/video?tid=0&pn=%skeyword=&order=pubdate"%(str(pnnumber +1))
'''
id那个位置记得换成你要的up的id

然后下面循环进行获取和分析就行了

'''

之后可以把这些数据放到json，execel，redis或者别的什么数据库中，当然，有了图片链接，你也可以去吧封面图下下来了

原文地址：https://blog.csdn.net/bailanren/article/details/142586131

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：构建高效房屋租赁系统：Spring Boot应用
下一篇：如何保证测试的覆盖率

企业微电网中的储能能量管理
模型预测是结合采样时刻测量值和前瞻预测值，将模型输出反馈作用于被控对象，对目标函数滚动优化，修正预测模型，预测模型输出控制量施加于混合储能系统，根据混合储能系统中蓄电池和氢储能装置的剩余能量决定储能装
阅读更多2024-09-29
Servlet——springMvc底层原理
我们也先了解一下什么的动态资源，什么是静态资源。静态资源：无需程序运行就可以获取的资源（照片、html、css、js等）动态资源：需要通关程序运行才可以获得的资源。（其实动态、静态的资源都与Servl
阅读更多2024-09-29
opencv：实现图像的自动裁剪与优化
接着定义几个辅助函数，如显示图像、排序坐标点以及进行四点变换等。
阅读更多2024-09-29
分布式数据库——HBase基本操作
以下图片则是hbase启动成功~接下来就可以开始建表啦~count '表名'
阅读更多2024-09-29
Unity角色控制及Animator动画切换如走跑跳攻击全流程详解
Unity角色控制及1一、概念11、角色控制11） CharacterController(角色控制器)12） CapsuleCollider + Rigidbody（使用物理刚体控制）4
阅读更多2024-09-29
【深度学习】05-Rnn循环神经网络-01- 自然语言处理概述/词嵌入层/循环网络/文本生成案例精讲
自然语言处理（Natural Language Processing, NLP）是计算机科学和人工智能的一个重要分支，旨在通过计算机算法分析、理解、生成和处理人类自然语言（如汉语、英语等）。自然语言具
阅读更多2024-09-29
探索光耦：光耦在电脑电源中的应用及其重要性
光耦可以在电源的高压侧和低压侧之间形成电气隔离，通过光信号传递信息，避免高压电流直接进入控制电路，从而有效避免高压冲击，保护电源以及电脑的各个重要组件，确保整个系统的安全。光耦能够帮助电源实时监测工作
阅读更多2024-09-29
选读算法导论5.2 指示器随机变量
2.注意随机变量指示器怎么用，实际上就是将求一个随机变量的期望，分解到一个个具体的事件，每一个小事件的期望往往容易求，所有小事件的期望加起来就是总得期望。单个事件选择i节点可以直接删除树，因为选了祖先
阅读更多2024-09-29
以太网交换安全：端口隔离
以太交换网络中为了实现报文之间的二层广播域的隔离，用户通常将不同的端口加人不同的 VLAN大型网络中，业务需求种类繁多，只通过 VLAN实现报文的二层隔离，会浪费有限的VLAN资源。而采用端口隔离功能
阅读更多2024-09-29
XPath基础知识点讲解——用于在XML中查找信息的语言
XPath（XML Path Language）是用于在XML（Extensible Markup Language）文档中查找信息的语言。它可以通过路径表达式来选择XML文档中的节点，类似于如何在文
阅读更多2024-09-29

Python 爬虫 根据ID获得UP视频信息

相关文章

Python 爬虫根据ID获得UP视频信息