python爬虫实战案例——爬取A站视频，m3u8格式视频抓取（内含完整代码！）

🕗 发布于 2024-11-14 07:53 python 音视频 m3u8

1、任务目标

目标网站：A站视频（https://www.acfun.cn/v/ac40795151）
要求：抓取该网址下的视频，将其存入本地，视频如下：

在这里插入图片描述

2、网页分析

进入目标网站，打开开发者模式，我们发现视频播放过程中有一个特点，也就是在Network-Fetch/XHR下不断有一些相似的接口文件产生
我们点击其中一个接口文件，发现 preview 下的内容都是类似乱码的数据，其实在网页中发现这种数据的文件，基本上都是二进制码流文件，其中存放的就是视频、音频、图片等数据，这里我们可以确定他就是我们要找的视频文件，在观察其URL发现它是一个ts文件，且以序号结尾，如：100000.ts ；我们多观察几个这种ts文件，发现都是按顺序排列的。我们称这种格式的视频文件为m3u8格式

m3u8格式视频简单介绍：

m3u8 格式其实就是将一个长的视频切割成一个个小的视频片段，然后网站通过不断加载这些片段，从而播放视频，这些片段自然就是上面说的 .ts格式的文件，并且这些片段还会进行编号，如：1000.ts，1001.ts，1002.ts；m3u8格式视频的好处就是，当我们滑动视频进度条，网站会直接加载该时间段的ts文件，一般一个片段就几秒钟，这样就可以快速定位并播放此刻的视频内容，从而给用户很好的观看体验

从上面我们知道了视频内容就存放在这些ts文件片段中，我们需要将其下载下来合并到一个mp4 文件中，从而播放完整的视频，一般一个ts片段几秒钟，这个视频只有1分多钟，那么至少有20来个ts文件需要找到，那么如何寻找这些文件呢？若等视频慢慢播放加载，不太现实。但是该网站有个特点，他会将所有ts文件的地址存放至一个 m3u8格式的文件中，该文件我们同样可以在 Network-Fetch/XHR 下找到，可以看到在下面这个m3u8格式的文件中，存放着这所有ts文件的url地址，这些地址都缺少主域名，后续我们需要将其拼接为完整地址
现在找到了存放ts文件地址的m3u8 格式文件了，那么m3u8格式文件的地址又在哪里呢？我们发现在 Network-Doc 有一个文件，其中存放的内容就包含了m3u8文件的地址
我们在内容中搜索m3u8，可以发现许多相关的链接地址，这些地址代表着不同编码、不同清晰度的m3u8文件的地址，我们只需选择其中一个就行，下面我将选择 720p清晰度的地址

总结：
在上面我们经过分析网页，对该网站的爬取有了一定的思路，大致步骤如下：

向存放m3u8文件地址的接口文件发起请求，从中分析出想要的m3u8文件链接
向m3u8文件发起请求，从中解析出所有的ts文件地址
向每个ts文件发起请求，将他们依次存入到mp4文件中，最后合并为一个完整的视频文件

3、代码编写

完整代码：

'''
目标网站：https://www.acfun.cn/v/ac40795151
要求：爬取该网站下的视频，将其存放至本地
'''
import requests
import re
import json
from jsonpath import jsonpath
from bs4 import BeautifulSoup
from tqdm import tqdm # 用于显示进度条,需要下载：pip install tqdm

# 1、准备网站信息
# 目标网站
url = 'https://www.acfun.cn/v/ac40795151'
# 身份信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.43',
}

# 2、获取m3u8文件链接
def get_m3u8():
    re_html = requests.get(url,headers=headers).text # 获得视频页面的网页源码
    # 用正则解析出目标内容
    str_data = re.findall('<script>.*?window.pageInfo\s=\swindow.videoInfo\s=\s(.*?);.*?window.videoResource\s=\s{}',re_html,re.S)[0]
    # 将字符串数据转换为json格式数据
    json_data1 = json.loads(str_data)['currentVideoInfo']['ksPlayJson']
    json_data2 = json.loads(json_data1)
    # 得到m3u8文件的链接
    link_m3u8 = jsonpath(json_data2,'$..representation..url')[2]
    # 解析出视频标题
    soup = BeautifulSoup(re_html,'lxml')
    title = soup.select('.video-description.clearfix h1.title span')[0].string # 标题
    return link_m3u8,title

# 2、获取所有的ts文件链接
def get_ts(link_m3u8):
    re_data = requests.get(link_m3u8,headers=headers).text # 得到m3u8文件的内容
    # 解析出所有的ts文件链接
    ts_link = re.sub('#.*', '', re_data).split()
    return ts_link

# 3、合并所有ts文件
def combine(ts_link,title):
    print('下载进度:')
    # 遍历每个ts文件链接，并下载下来
    for l in tqdm(ts_link): # tadm 可以显示进度条
        ts_url = 'https://tx-safety-video.acfun.cn/mediacloud/acfun/acfun_video/' + l # 拼接为完整的链接
        ts_b = requests.get(ts_url,headers=headers).content # 得到下载的ts文件二进制流
        # 将ts文件全部保存至一个MP4文件中，完成合并！
        with open(f'{title}.mp4','ab') as f:
            f.write(ts_b)
    print('下载完成！')
    f.close()

# 4、调用函数
def start():
    # 依次调用每个函数
    link_m3u8,title = get_m3u8()
    ts_link = get_ts(link_m3u8)
    combine(ts_link,title)

if __name__ == '__main__':
    # 启动程序
    start()

执行效果：
在这里插入图片描述

原文地址：https://blog.csdn.net/m0_59470317/article/details/143591403

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：WPS宏编辑器开发，单元格内容变更自动触发事件
下一篇：WebRTC视频 03 - 视频采集类 VideoCaptureDS 上篇

问题（十九）JavaAgent-ByteBuddy与CGLIB字节码增强冲突问题
其他团队在使用作者的性能分析组件时发生了发布阻塞，经过排查是由于bytebuddy和cglib字节码冲突，这里介绍一下排查过程和原理分析
阅读更多2024-11-14
Jsp的内置对象及方法
JSP内置对象提供了一系列预定义的方法和属性，这些方法和属性可以直接在JSP页面中使用，无需额外的Java代码。
阅读更多2024-11-14
labview实现上升沿和下降沿
日常记录
阅读更多2024-11-14
spring boot 请求
对于http请求，无外乎都是get、post、put、delete。常用的也就那么几个。但刚学java的我还是记下他们的写法吧。虽然在工作中经常会用上，但也给初学的兄弟们更快上手吧。put 和 del
阅读更多2024-11-14
重庆不歧视本科的计算机专硕考研的非自命题学校有哪些？
综上所述，虽然重大的考研难度大于重邮，但考虑到其985高校的地位、丰富的科研资源和更高的社会认可度，选择重大无疑是一个更具性价比的选择。特别是对于本科就是211的学子来说，冲刺985无疑是最佳选择。无
阅读更多2024-11-14
vue3 中那些常用靠copy 的内置函数
vue3 中那些常用靠copy 的内置函数
阅读更多2024-11-14
10款PDF合并工具讲解与推荐！！！
在现在的大环境下，PDF文件因其跨平台、格式固定等优势，成为了我们工作和学习中不可或缺的一部分。是最常用的文档格式之一。然而，面对多个PDF文件需要合并成一个的场景，如何选择一款高效、易用的PDF合并
阅读更多2024-11-14
云计算&虚拟化-kvm网络模式介绍
创建虚拟机所需要的资源，包括核心的cpu和内存是由kvm来模拟，但是网络资源并不是kvm来模拟的，而是从软件层面来实现的，比如安装完成libvirt以后就会有一个virbr0的虚拟网卡。
阅读更多2024-11-14
SMA-BP基于黏菌算法优化BP神经网络时间序列预测
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepL
阅读更多2024-11-14
VScode插件：前端每日一题
VScode插件：前端每日一题即时通讯的实现：短轮询、长轮询、SSE 和 WebSocket 间的区别
阅读更多2024-11-14

python爬虫实战案例——爬取A站视频，m3u8格式视频抓取（内含完整代码！）

1、任务目标

2、网页分析

3、代码编写

相关文章