python—爬虫爬取视频样例

🕗 发布于 2024-07-21 22:35 python 爬虫音视频

下面是一个使用Python爬虫爬取视频的基本例子。创建一个Python爬虫来爬取视频通常涉及到几个步骤：发送HTTP请求、解析网页内容、提取视频链接、下载视频文件。

import json

import requests
from lxml import etree

if __name__ == '__main__':
    # UA伪装
    head = {
        "User-Agent": "http://example.com/"
        # 防盗链
        , "Referer": "http://example.com/"
        ,
        "Cookie": "http://example.com/"
    }

    # 1、指定url
    url = "http://example.com/"
    # 2、发送请求
    response = requests.get(url, headers=head)

    # 3、获取响应的数据
    res_text = response.text
    print(res_text)
    #4.数据解析
    tree = etree.HTML(res_text)

    with open("bi.html","w",encoding="utf8") as f:
        f.write(res_text)


    base_info = "".join(tree.xpath("/html/head/script[4]/text()"))[20:]
    print(base_info)

    info_dict = json.loads(base_info)
    print(info_dict)

    video_url = info_dict["data"]["dash"]['video'][0]["baseUrl"]
    audio_url = info_dict["data"]["dash"]['audio'][0]["baseUrl"]

    video_content = requests.get(video_url,head).content
    audio_content = requests.get(audio_url,head).content

    with open("video.mp4","wb") as f:
        f.write(video_content)
    with open("audio.mp4","wb") as fp:
        fp.write(audio_content)
pass

这段代码的主要目的是从网站获取一个视频的视频流和音频流，并将它们分别保存到本地文件中。下面是代码的详细解释：

1.导入必要的库：

json：用于处理JSON数据。
requests：用于发送HTTP请求。
lxml.etree：用于解析HTML和XML文档。

2.设置请求头：

创建一个字典head，包含模拟浏览器访问的User-Agent、防止防盗链的Referer以及一个示例的Cookie（注意，这里的User-Agent、Referer、Cookie仅仅只是样例）。
想要找到正确的User-Agent、防止防盗链的Referer以及一个示例的Cookie，可以通过打开电脑键盘F12，然后点击显示界面网络，找到名称一列的第一个项目，从标头里面可以找到相应的目标。
图例：
在这里插入图片描述

3.指定URL：

这里的url的获取方法同上。

4.发送请求：

使用requests.get方法发送HTTP GET请求到指定的URL，并将请求头设置为之前创建的head。（注意：请求方法可以通过类似url的获取方式查询）
图例：
在这里插入图片描述

5.获取响应数据：

从响应中获取HTML内容，并将其存储在变量res_text中。
打印整个HTML内容（这一步通常用于调试）。

6.保存HTML到文件：

将HTML内容写入到名为bi.html的文件中，用于后续分析或备份。

7.解析HTML以获取视频和音频信息：

使用lxml.etree解析HTML内容，并尝试从标签中的第四个

8.提取视频和音频的URL：

从解析后的字典中提取视频和音频的baseUrl。

9.下载视频和音频内容：

分别对视频和音频的URL发送GET请求，并将响应的内容（即视频和音频的二进制数据）保存到本地文件中。注意，这里将音频也保存为.mp4文件，但通常音频文件会使用.m4a、.aac或其他音频格式的文件扩展名。

注意：

硬编码的Cookie和直接从HTML中提取JSON字符串的方法（特别是通过指定

原文地址：https://blog.csdn.net/2301_77698138/article/details/140593386

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于springboot+vue+uniapp的流浪动物救助小程序
下一篇：字符函数和字符串函数（二）

JS 函数的基本知识
JS 函数的基本知识
阅读更多2024-11-10
《计算机原理与系统结构》学习系列——存储器（上）
例如，当一个处理器启动时，cache中没有数据，标记域中的值没有意义。因此，在cache中，这些块的标记应该被忽略。对于全相联映射，比较标记位的开销太大，有一种折中的办法，对cache进行分组，一个内
阅读更多2024-11-10
提升网站流量的秘诀：SEO和关键词优化实用指南
在数字营销的竞争中，提升网站流量至关重要。本文将深入探讨SEO和关键词优化的实用技巧，帮助你掌握如何有效提升网站在搜索引擎中的排名。通过选择合适的关键词、优化页面内容以及提升用户体验，实现流量的稳步增
阅读更多2024-11-10
比较级与最高级
在英语中，形容词和副词有三种基本形式：原级（positive degree）、比较级（comparative degree）和最高级（superlative degree）。比较级和最高级主要用于描述
阅读更多2024-11-10
证书学习（六）TSA 时间戳服务器原理 + 7 个免费时间戳服务器地址
证书学习（六）TSA 时间戳服务器原理 + 7 个免费时间戳服务器地址
阅读更多2024-11-10
AUTOSAR CP SocketAdaptor（SoAd）规范导读
套接字连接方面，TCP/IP 通信基于 Internet 套接字，它是通信链路的端点，由元组 IP 地址和端口标识。在 UDP 套接字中用于无连接通信，而 TCP 套接字用于面向连接的通信，要求一方建
阅读更多2024-11-10
Redhat8.6安装JDK1.8
【代码】Redhat8.6安装JDK1.8
阅读更多2024-11-10
GNU/Linux - /proc/sys/vm/drop_caches
总之，虽然 /proc/sys/vm/drop_caches 提供了在 Linux 中手动释放各种缓存的方法，但应谨慎使用，并主要用于测试或调试目的。/proc/sys/vm/drop_caches
阅读更多2024-11-10
InterPVD部分漏洞成因分析
本文是对 On the Effectiveness of Function-Level Vulnerability Detectors for Inter-Procedural Vulnerabili
阅读更多2024-11-10
使用C++和QT开发应用程序入门以及开发实例分享
本文详细介绍了使用C++和QT开发应用程序入门，并分享了一个开发实例。
阅读更多2024-11-10